Jeg er ganske flink med Python, så pseudo-kode vil være nok når detaljene er trivielt. Vennligst få meg i gang på oppgaven - hvordan går om kryp nettet for sneglen postadressene til kirker i min tilstand. Når jeg har en liner som 123 Old West Road # 3 Old Lyme City MD 01234, kan jeg sannsynligvis analysere det inn by, stat, Street, nummer, apt med nok prøving og feiling. Mitt problem er - hvis jeg bruker hvite sider på nettet, så hvordan kan jeg takle all HTML useriøs, HTML-tabeller, annonser, etc? Jeg tror ikke jeg trenger deres telefonnummer, men det vil ikke skade - Jeg kan alltid kaste den ut en gang analysert. Selv om løsningen er halv manuell (for eksempel lagre til PDF, og deretter åpne acrobat, lagre som tekst) - jeg kan være fornøyd med det likevel. Takk! Pokker, jeg vil også akseptere Perl utdrag - Jeg kan oversette dem selv.
Å få en liste over alle kirker i en viss tilstand ved hjelp av Python
kilden bruker Hamish Grubijan
På andre språk...
Prøv lynx --dump <url>å laste ned nettsider. Alle plagsom HTML-kodene vil bli fjernet fra produksjonen, og alle lenker fra siden vises sammen.
Du kan bruke mekanisere . Det er en python bibliotek som simulerer en nettleser, slik at du kan krype gjennom den hvite sider (på samme måte som det du gjør manuelt).
For å håndtere den 'html junk' python har et bibliotek for det også: BeautifulSoup Det er en fin måte å få dataene du ønsker ut av HTML (selvfølgelig forutsetter det at du vet litt om HTML, så du vil fortsatt må navigere parsetreet).
Oppdatering: Som til oppfølgingsspørsmål om hvordan du kan klikke seg gjennom flere sider. mekanisere er et bibliotek for å gjøre nettopp det. Ta en nærmere titt på deres eksempel, esp. den follow_link metode. Som jeg sa det simulerer en nettleser, så 'klikke' kan realiseres raskt i python.
Hva du prøver å gjøre kalles Skraping eller web skraping.
Hvis du gjør noen søk på python og skraping , kan du finne en liste over verktøy som vil hjelpe.
(Jeg har aldri brukt scrapy, men det er stedet ser lovende ut :)
Vakker Suppe er en no brainer. Her er et nettsted du kan starte på http://www.churchangel.com/ . De har en enorm liste og formateringen er svært vanlig - oversettelse: enkel å installere BSoup å skrape.
Python-skript er kanskje ikke det beste verktøyet for denne jobben, hvis du bare leter etter adresser til menighetene i et geografisk område.
US Census gir et datasett kirker for bruk med geografiske informasjonssystemer. Hvis finne alt xi en romlig område er et tilbakevendende problem, investere i å lære et GIS. Deretter kan du ta med Python ferdigheter til å bære på mange geografiske oppgaver.