Extraer correos electrónicos de páginas web con python
En esta oportunidad quería compartir con ustedes un script que extrae correos electrónicos de páginas web (Utilizando técnicas de Web Scraping).
Edito: versión web Extractor Emails
El primer objetivo del Script fue buscar correos en páginas específicas (pues me daba un poco de pereza recolectar correos de una página en particular)
Luego pensé, "Si hiciera una aplicación para restaurantes y quisiera conseguir la mayor cantidad de correos posibles de los restaurantes de mi localidad que fueran potenciales clientes a mi aplicación, ¿Como podría hacer?" Email Marketing.
Paso a detallar las funcionalidad y de paso les comparto el link a GitHub para no copiar todo el código en el Post.
Cabe aclarar que todos los correos se guardan en una Base de Datos Sqlite.
Funcionalidades del Script que llamé Email Extractor
- Extraer los correos de una única URL: Sencillo, ingresas la URL y busca sólo en la página ingresada (un nivel)
- Extraer los correos de una URL (dos niveles): Además de hacer lo que hace la primera funcionalidad, ingresa en cada URL que encuentra en la URL ingresada y también busca correos ahí.
- Hacer una búsqueda en Google, guardar las URLs encontradas y buscar los correos en dichas URLs: Esta es la funcionalidad que utilizo para el Email Marketing. Como comente anteriormente, imaginemos que queremos los correos de "todos" los restaurantes de Buenos Aires - Argentina, la funcionalidad nos pedirá una frase: "restaurantes en Buenos Aires", luego nos pedirá una cantidad de búsqueda: 100, entonces el script ingresará en cada URL encontrada en Google y buscará todos los correos electrónicos que en ellas encuentre. Aclarar que cuanto más búsquedas hagamos, más demorará la aplicación.
- Listar Correos: hay 3 formas de listar los correos
- Ingresando una frase: busca todos los correos que existen en la base de datos para una frase específica, Ejemplo: "restaurantes en Buenos Aires"
- Ingresando una Url específica: lo mismo que el anterior pero para una Url
- Todos los correos de la BD
- Guardar los correos en un .txt: esta funcionalidad guarda los correos en un archivo .txt y como la funcionalidad anterior, también tiene las mismas 3 formas de guardarlos: por frase, Url o todos.
- Borrar correos de la Base de Datos: como su nombre indica, esta funcionalidad borra correos de la BD y para ello también utiliza las 3 modalidades de las funcionalidades anteriores: por frase, Url o Todos.
Espero que como a mí, les sea de utilidad.
Link del código: Email Extractor
Cualquier duda o sugerencia siempre es bienvenida y motiva a seguir escribiendo y sobre todo COMPARTIENDO.
Saludos, Diego Caraballo
-
-
Muchas gracias Alfredo, un saludo grande desde Uruguay.
-
-
Excelente aporte mano..! Saludos!
-
Gracias Carlos por pasarte por el blog. Saludos
-
-
Buen aporte, yo utilice el framework scrapy para sacar informacion de las funciones de una pagina de cine
-
Muchas gracias Daniel, Saludos
-
excelente blog hermano continúen así, bendiciones
-
-
Diego:
Una Consulta. Soy nuevo en python, intenté correr el script, y me arrojó lo siguiente:Traceback (most recent call last):
File "EmailExtractor.py", line 6, in
from googlesearch import search
ImportError: No module named googlesearch¿Me puedes orientar?
-
miesma duvida
Diego:
Una Consulta. Soy nuevo en python, intenté correr el script, y me arrojó lo siguiente:Traceback (most recent call last):
File "EmailExtractor.py", line 6, in
from googlesearch import search
ImportError: No module named googlesearch¿Me puedes orientar?
-
estou com o mesmo problema
-
-
Muito bom!
-
hola amigo, se puede utilizar el extractor online
Deja una respuesta
Estoy comenzando a aprender Python y esto me parece muy interesante, en verdad me gusta el abanico de posibilidades que da el lenguaje.
Felicitaciones por el script y por compartir lo que sabes con la comunidad.
Saludos desde Guayaquil, Ecuador.