DuCrawler - Extractor de Imágenes de Google Automático
Hola amigos de Internet, mi nombre es Luis y les doy la
bienvenida nuevamente a Mi Diario Phython.
bienvenida nuevamente a Mi Diario Phython.
En el día de hoy les mostrare un proyecto que me he
encontrado en github. DuCrawler, cuyo objetivo es extraer imágenes de google de
forma automática.
encontrado en github. DuCrawler, cuyo objetivo es extraer imágenes de google de
forma automática.
DuCrawler es un proyecto realizado por “Ruofei Du” y puedes
descargarlo ingresando al siguiente enlace: https://github.com/ruofeidu/DuCrawler.
descargarlo ingresando al siguiente enlace: https://github.com/ruofeidu/DuCrawler.
DuCrawler:
¿Qué les parece si vemos el código de este proyecto y luego
lo probamos? De esta manera vemos los procedimientos que realiza y al mismo
tiempo aprendemos.
lo probamos? De esta manera vemos los procedimientos que realiza y al mismo
tiempo aprendemos.
Hay dos scripts, “crawler_google” y “crawler_bing”. En el
caso de hoy, analizaremos a “crawler_google”.
caso de hoy, analizaremos a “crawler_google”.
Lo primero que vemos al abrir el código, son los modulos que
se utilizaran. Como pueden observar se hace uso de “BeautifulSoup”, “Requests”,“OpencCv
(cv2)” y otros modulos de la librería estándar de Python.
se utilizaran. Como pueden observar se hace uso de “BeautifulSoup”, “Requests”,“OpencCv
(cv2)” y otros modulos de la librería estándar de Python.
También podemos ver el nombre del creador del script.
Seguido de esto vemos una clase llamada “Paras”. Como pueden
apreciar, al principio de la clase se declaran 12 variables. Estas variables
son parámetros que la búsqueda utilizara. Se pueden observar: el nombre de la
carpeta en donde se descargaran las imágenes (Result), el keywords_file el cual
es el archivo en donde escribiremos las palabras claves de la búsqueda, y otros
valores.
apreciar, al principio de la clase se declaran 12 variables. Estas variables
son parámetros que la búsqueda utilizara. Se pueden observar: el nombre de la
carpeta en donde se descargaran las imágenes (Result), el keywords_file el cual
es el archivo en donde escribiremos las palabras claves de la búsqueda, y otros
valores.
En la clase “Para”, también tenemos el método “search_google”,
el cual realizara el procedimiento de búsqueda de las imágenes.
el cual realizara el procedimiento de búsqueda de las imágenes.
Muy bien, no seguiré mostrando la clase, pasare directamente
al uso de la misma. Si quieren ver todos los métodos de la clase “Para”,
recuerden que pueden descargar el script ingresando al siguiente enlace: https://github.com/ruofeidu/DuCrawler.
al uso de la misma. Si quieren ver todos los métodos de la clase “Para”,
recuerden que pueden descargar el script ingresando al siguiente enlace: https://github.com/ruofeidu/DuCrawler.
Sabemos que la clase “Para” es la estrella de este proyecto,
pero ¿Cómo utilizarla? Te lo mostrare en seguida. Antes, quiero mostrarles el
contenido del archivo “config_google.ini” el cual se encuentra en la carpeta
junto con el script “crawler_google.py”:
pero ¿Cómo utilizarla? Te lo mostrare en seguida. Antes, quiero mostrarles el
contenido del archivo “config_google.ini” el cual se encuentra en la carpeta
junto con el script “crawler_google.py”:
Que les parece si lo abrimos:
Este archivo contiene información que ayudara al script
hacer su trabajabo. Vemos las cabeceras de las búsquedas, el título del archivo
que contiene las palabras claves, el nombre de la carpeta que contendrá las imágenes,
el número máximo de resultados y otros valores, que pueden cambiar a voluntad.
hacer su trabajabo. Vemos las cabeceras de las búsquedas, el título del archivo
que contiene las palabras claves, el nombre de la carpeta que contendrá las imágenes,
el número máximo de resultados y otros valores, que pueden cambiar a voluntad.
Ahora, podemos como utilizar la clase. Pueden crear un
archivo nuevo y vacío y realizar el procedimiento que verán ahora, por
supuesto, si lo harán en otro archivo, deben de importar este script.
archivo nuevo y vacío y realizar el procedimiento que verán ahora, por
supuesto, si lo harán en otro archivo, deben de importar este script.
Perfecto. Lo primero que se ve es el __name__ == “__main__”,
esto permite ejecutar el script a aunque este sea una clase. Creo que no se me explicar
muy bien, así que si tienen duda, saben que pueden dejar un comentario.
esto permite ejecutar el script a aunque este sea una clase. Creo que no se me explicar
muy bien, así que si tienen duda, saben que pueden dejar un comentario.
Perfecto, vemos que se hace uso de “configparse” para abrir
el archivo con formato “.ini” el cual contiene los parámetros de la
configuración.
el archivo con formato “.ini” el cual contiene los parámetros de la
configuración.
Luego vemos que se cambian los valores de los atributos de
la clase.
la clase.
¿Qué les parece si ejecutamos el script?
Antes les sugiero que vean el archivo “keywords.txt” el cual
contiene la palabras claves de la búsqueda, cámbienla a su gusto.
contiene la palabras claves de la búsqueda, cámbienla a su gusto.
Ejecutamos el script, y el proceso empezara. Se creara una
carpeta llamada “Result” y dentro de esta carpeta se creara otra carpeta cuyo
nombre será el de la palabra clave que hayas ingresado en el archivo “keywords.txt”.
La palabra clave que yo ingrese fue “Pirámides de Egipto”.
carpeta llamada “Result” y dentro de esta carpeta se creara otra carpeta cuyo
nombre será el de la palabra clave que hayas ingresado en el archivo “keywords.txt”.
La palabra clave que yo ingrese fue “Pirámides de Egipto”.
Mi resultado será el siguiente:
Muy bueno ¿No crees? El proceso no dejara de descargar imágenes
hasta llegar a los 1000 resultados.
hasta llegar a los 1000 resultados.
¿Qué te pareció? Interesante ¿Verdad? Y muy útil.
Recuerda que puedes descargar este proyecto ingresando al
siguiente enlace: https://github.com/ruofeidu/DuCrawler.
siguiente enlace: https://github.com/ruofeidu/DuCrawler.
-
ahi para quien le sirva encontre otro Image Crawler un poco mas facil de configurar
https://github.com/hardikvasa/google-images-download
Deja una respuesta
Hola Luis, he tratado de modificar algunos parametros para que descargue solo 20 imagenes pero no me funciona, podrias indicarme como puedo hacerle?, Gracias de antemano