Å få en liste over alle kirker i en viss tilstand ved hjelp av Python

stemmer
-3

Jeg er ganske flink med Python, så pseudo-kode vil være nok når detaljene er trivielt. Vennligst få meg i gang på oppgaven - hvordan går om kryp nettet for sneglen postadressene til kirker i min tilstand. Når jeg har en liner som 123 Old West Road # 3 Old Lyme City MD 01234, kan jeg sannsynligvis analysere det inn by, stat, Street, nummer, apt med nok prøving og feiling. Mitt problem er - hvis jeg bruker hvite sider på nettet, så hvordan kan jeg takle all HTML useriøs, HTML-tabeller, annonser, etc? Jeg tror ikke jeg trenger deres telefonnummer, men det vil ikke skade - Jeg kan alltid kaste den ut en gang analysert. Selv om løsningen er halv manuell (for eksempel lagre til PDF, og deretter åpne acrobat, lagre som tekst) - jeg kan være fornøyd med det likevel. Takk! Pokker, jeg vil også akseptere Perl utdrag - Jeg kan oversette dem selv.

Publisert på 14/12/2009 klokken 22:29
kilden bruker
På andre språk...                            


5 svar

stemmer
2

Prøv lynx --dump <url>å laste ned nettsider. Alle plagsom HTML-kodene vil bli fjernet fra produksjonen, og alle lenker fra siden vises sammen.

Svarte 14/12/2009 kl. 22:36
kilden bruker

stemmer
2

Du kan bruke mekanisere . Det er en python bibliotek som simulerer en nettleser, slik at du kan krype gjennom den hvite sider (på samme måte som det du gjør manuelt).

For å håndtere den 'html junk' python har et bibliotek for det også: BeautifulSoup Det er en fin måte å få dataene du ønsker ut av HTML (selvfølgelig forutsetter det at du vet litt om HTML, så du vil fortsatt må navigere parsetreet).

Oppdatering: Som til oppfølgingsspørsmål om hvordan du kan klikke seg gjennom flere sider. mekanisere er et bibliotek for å gjøre nettopp det. Ta en nærmere titt på deres eksempel, esp. den follow_link metode. Som jeg sa det simulerer en nettleser, så 'klikke' kan realiseres raskt i python.

Svarte 14/12/2009 kl. 22:42
kilden bruker

stemmer
2

Hva du prøver å gjøre kalles Skraping eller web skraping.

Hvis du gjør noen søkpython og skraping , kan du finne en liste over verktøy som vil hjelpe.

(Jeg har aldri brukt scrapy, men det er stedet ser lovende ut :)

Svarte 14/12/2009 kl. 22:46
kilden bruker

stemmer
2

Vakker Suppe er en no brainer. Her er et nettsted du kan starte på http://www.churchangel.com/ . De har en enorm liste og formateringen er svært vanlig - oversettelse: enkel å installere BSoup å skrape.

Svarte 14/12/2009 kl. 23:17
kilden bruker

stemmer
1

Python-skript er kanskje ikke det beste verktøyet for denne jobben, hvis du bare leter etter adresser til menighetene i et geografisk område.

US Census gir et datasett kirker for bruk med geografiske informasjonssystemer. Hvis finne alt xi en romlig område er et tilbakevendende problem, investere i å lære et GIS. Deretter kan du ta med Python ferdigheter til å bære på mange geografiske oppgaver.

Svarte 14/12/2009 kl. 23:34
kilden bruker

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more