Soy bastante bueno con Python, por lo que el pseudocódigo será suficiente cuando los detalles son triviales. Por favor, hágame comenzar con la tarea: ¿cómo puedo ir rastreando la red en busca de las direcciones de correo electrónico de iglesias en mi estado? Una vez que tengo un trazador de líneas tal como 123 Old West Road # 3 Old Lyme City MD 01234, probablemente pueda analizarlo en City, State, Street, number, apt con suficiente prueba y error. Mi problema es que si uso páginas blancas en línea, ¿cómo trato con todos los elementos basura HTML, tablas HTML, anuncios, etc.? No creo que necesite su número de teléfono, pero no va a doler, siempre puedo tirarlo una vez analizado. Incluso si su solución es mitad manual (como guardar en pdf, luego abrir acrobat, guardar como texto) - aún podría estar contento con eso. ¡Gracias! Diablos, incluso aceptaré fragmentos de Perl, los puedo traducir yo mismo.
Obteniendo una lista de todas las iglesias en cierto estado usando Python
fuente por usuario Hamish Grubijan
En otros idiomas...
Intenta lynx --dump <url>descargar las páginas web. Todas las etiquetas HTML problemáticas serán eliminadas de la salida, y todos los enlaces de la página aparecerán juntos.
Podrías usar mecanizar . Es una biblioteca de Python que simula un navegador, por lo que puede rastrear las páginas blancas (de manera similar a lo que hace manualmente).
Para tratar con el 'html junk', python también tiene una biblioteca: BeautifulSoup. Es una hermosa forma de obtener los datos que desea de HTML (por supuesto, supone que sabe un poco sobre HTML, ya que todavía tiene que navegar por el árbol de análisis sintáctico).
Actualización: en cuanto a su pregunta de seguimiento sobre cómo hacer clic en varias páginas. mechanize es una biblioteca para hacer precisamente eso. Eche un vistazo más de cerca a sus ejemplos, esp. el método follow_link. Como dije, simula un navegador, por lo que 'hacer clic' puede realizarse rápidamente en Python.
Lo que estamos tratando de hacer es llamado raspado o raspado web.
Si lo hace algunas búsquedas en pitón y el raspado , puede encontrar una lista de herramientas que le ayudarán.
(Nunca he utilizado scrapy, pero es el sitio parece prometedor :)
Beautiful Soup es un pan comido. Aquí hay un sitio que puede comenzar en http://www.churchangel.com/ . Tienen una gran lista y el formato es muy regular. Traducción: fácil de configurar BSoup para raspar.
Es posible que las secuencias de comandos de Python no sean la mejor herramienta para este trabajo, si solo está buscando direcciones de iglesias en un área geográfica.
El censo de los Estados Unidos proporciona un conjunto de datos de iglesias para su uso con sistemas de información geográfica. Si encontrar todo xen un área espacial es un problema recurrente, invierta en aprender un SIG. Luego, puede aplicar sus habilidades de Python a muchas tareas geográficas.