DuCrawler - Extractor de Imágenes de Google Automático

Hola amigos de Internet, mi nombre es Luis y les doy la
bienvenida nuevamente a Mi Diario Phython.

En el día de hoy les mostrare un proyecto que me he
encontrado en github. DuCrawler, cuyo objetivo es extraer imágenes de google de
forma automática.

Imagen relacionada

DuCrawler es un proyecto realizado por “Ruofei Du” y puedes
descargarlo ingresando al siguiente enlace: https://github.com/ruofeidu/DuCrawler.
DuCrawler:

¿Qué les parece si vemos el código de este proyecto y luego
lo probamos? De esta manera vemos los procedimientos que realiza y al mismo
tiempo aprendemos.
Hay dos scripts, “crawler_google” y “crawler_bing”. En el
caso de hoy, analizaremos a “crawler_google”.

 
Lo primero que vemos al abrir el código, son los modulos que
se utilizaran. Como pueden observar se hace uso de “BeautifulSoup”, “Requests”,“OpencCv
(cv2)” y otros modulos de la librería estándar de Python.
También podemos ver el nombre del creador del script.
Seguido de esto vemos una clase llamada “Paras”. Como pueden
apreciar, al principio de la clase se declaran 12 variables. Estas variables
son parámetros que la búsqueda utilizara. Se pueden observar: el nombre de la
carpeta en donde se descargaran las imágenes (Result), el keywords_file el cual
es el archivo en donde escribiremos las palabras claves de la búsqueda, y otros
valores.
En la clase “Para”, también tenemos el método “search_google”,
el cual realizara el procedimiento de búsqueda de las imágenes.
Muy bien, no seguiré mostrando la clase, pasare directamente
al uso de la misma. Si quieren ver todos los métodos de la clase “Para”,
recuerden que pueden descargar el script ingresando al siguiente enlace: https://github.com/ruofeidu/DuCrawler.

Sabemos que la clase “Para” es la estrella de este proyecto,
pero ¿Cómo utilizarla? Te lo mostrare en seguida. Antes, quiero mostrarles el
contenido del archivo “config_google.ini” el cual se encuentra en la carpeta
junto con el script “crawler_google.py”:


Que les parece si lo abrimos:

Este archivo contiene información que ayudara al script
hacer su trabajabo. Vemos las cabeceras de las búsquedas, el título del archivo
que contiene las palabras claves, el nombre de la carpeta que contendrá las imágenes,
el número máximo de resultados y otros valores, que pueden cambiar a voluntad.

Ahora, podemos como utilizar la clase. Pueden crear un
archivo nuevo y vacío y realizar el procedimiento que verán ahora, por
supuesto, si lo harán en otro archivo, deben de importar este script.
Perfecto. Lo primero que se ve es el __name__ == “__main__”,
esto permite ejecutar el script a aunque este sea una clase. Creo que no se me explicar
muy bien, así que si tienen duda, saben que pueden dejar un comentario.

Perfecto, vemos que se hace uso de “configparse” para abrir
el archivo con formato “.ini” el cual contiene los parámetros de la
configuración.

Luego vemos que se cambian los valores de los atributos de
la clase.
¿Qué les parece si ejecutamos el script?

Antes les sugiero que vean el archivo “keywords.txt” el cual
contiene la palabras claves de la búsqueda, cámbienla a su gusto.


Ejecutamos el script, y el proceso empezara. Se creara una
carpeta llamada “Result” y dentro de esta carpeta se creara otra carpeta cuyo
nombre será el de la palabra clave que hayas ingresado en el archivo “keywords.txt”.
La palabra clave que yo ingrese fue “Pirámides de Egipto”.

Mi resultado será el siguiente:

Muy bueno ¿No crees? El proceso no dejara de descargar imágenes
hasta llegar a los 1000 resultados.
¿Qué te pareció? Interesante ¿Verdad? Y muy útil.
Recuerda que puedes descargar este proyecto ingresando al
siguiente enlace: https://github.com/ruofeidu/DuCrawler.

  1. RICARDO ULISES PRADO URIBE dice:

    Hola Luis, he tratado de modificar algunos parametros para que descargue solo 20 imagenes pero no me funciona, podrias indicarme como puedo hacerle?, Gracias de antemano

  2. RICARDO ULISES PRADO URIBE dice:

    ahi para quien le sirva encontre otro Image Crawler un poco mas facil de configurar

    https://github.com/hardikvasa/google-images-download

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir

Te has suscrito correctamente al boletín

Se produjo un error al intentar enviar tu solicitud. Inténtalo de nuevo.

Mi Diario Python will use the information you provide on this form to be in touch with you and to provide updates and marketing.