Script en python para descargar imagenes de un sitio  

 

El problema.

Necesitaba descargar las imágenes de un sitio. Intenté de varias formas con resultados mixtos. Al principio usé wget, pero por más que le moví a los parámetros del comando descargaba de todo menos las imágenes. Sospecho que el problema fue que los archivos que quería descargar estaban en otros sitios conocidos por hospedar imágenes como Flickr o ImageShack. Era tiempo de ver otras opciones.

Posibles soluciones.

Primero intenté con DownThemAll un archifamoso complemento para firefox que permite descargar archivos de una página. Con la opción del filtro permite especificar únicamente las imágenes. Hace el trabajo, pero con demasiados clics de ratón. Lo dejé como plan B.

Image Harvester parecía ser justo lo que necesitaba. Lamentablemente resulto demasiado lento y de resultados dudosos. Después de 10 minutos jamás vi una imagen JPG en la enormidad de directorios que hizo el script. Afortunadamente inspeccionando su código surgío una idea.

ImageDownloader un script desarrollado por Lorenzo Carbonell. La idea era buena, buscar en una página todas las etiquetas img para luego descargarlas, simple y elegante. Sin embargo este script adolece de un gran problema, al encontrar la primera imagen con una referencia relativa ¡El programa truena! así que tampoco fue una solución.

ImageDownloader + wget

Primero quiero aclarar que mis habilidades con python son muy básicas, así que cualquier sugerencia será bienvenida. Modificando un poco el script de Image Downloader y encargandole la tarea de descargar los archivos a wget logré mi objetivo.

idw descargando imágenes

Todavía tiene problemas con rutas de imágenes relativas pero ya no truena y simplemente continua con la siguiente imagen. Todos los archivos los descarga en el directorio que se esta ejecutando.

Si lo necesitan o lo quieren modificar pueden descargar idw.

El siguiente paso será resolver las rutas relativas, o probablemente usar axel en lugar de wget para acelerar las descargas.

Archivado en: Linux y Software Libre, Python | | September 1, 2011

   Compartir   Print Friendly and PDF

1 Comentario »

Enlace Permanente | TrackBack

Gravatar Image

# 1 | WebMAAC
September 16, 2011 @ 5:58 pm    

Funciona para Archivos PDF? y htaccess

RSS para los comentarios de este artículo.

Deja un comentario...

Los parráfos son automáticos, tu dirección de e-mail nunca será mostrada, los siguientes códigos en HTML están permitidos:<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>

Este es un espacio abierto, puedes escribir lo que gustes respetando los siguientes puntos:

  • 1.- Lo que escribas esté relacionado con el post, si gustas contactarme puedes hacerlo aqui.
  • 2.- Todo es cuestionable, aunque ten en cuenta que existen formas de hacerlo, evita las agresiones.
  • 3.- Siempre hay tres verdades: tu verdad, mi verdad y la verdad, por lo que opiniones diferentes no necesariamente son equivocadas.
  • 4.- Es importante encontrar el modo correcto de expresar cualquier punto de vista, revisa tu lenguaje antes de poner tu comentario.
Este blog ya no esta aceptando comentarios, si quieres puedes hacerlo en Script en python para descargar imagenes de un sitio



Anti-spam : Teclea el número que aparece del lado izquierdo.

Otros Artículos ...