Hva er den beste måten å hente ut tabellen innhold fra en gruppe av HTML-filer?

stemmer
1

Etter rengjøring en mappe full av HTML-filer med RYDDIG, hvordan kan tabeller innholdet hentes ut for videre behandling?

Publisert på 15/09/2008 klokken 23:53
kilden bruker
På andre språk...                            


6 svar

stemmer
2

Jeg har brukt BeautifulSoup for slike ting i det siste med stor suksess.

Svarte 15/09/2008 kl. 23:56
kilden bruker

stemmer
0

I .NET kan du bruke HTMLAgilityPack .

Se dette forrige spørsmålet på Stackoverflow for mer informasjon.

Svarte 15/09/2008 kl. 23:59
kilden bruker

stemmer
0

Hvis du ønsker å trekke ut innhold fra HTML markup, bør du bruke noen form for HTML-parser. For dette formål er det nok der ute, og her er to som kan suite dine behov:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

Svarte 16/09/2008 kl. 00:03
kilden bruker

stemmer
1

Avhenger av hva slags behandling du ønsker å gjøre. Du kan fortelle Tidy å generere XHTML, som er en type XML, som betyr at du kan bruke alle de vanlige XML-verktøy som XSLT og XQuery på resultatene.

Hvis du ønsker å behandle dem i Microsoft Excel, så du bør være i stand til å skjære bordet ut av HTML og legg den i en fil, og deretter åpne filen i Excel: det vil gjerne konvertere en HTML-tabell i et regneark side. Deretter kan du lagre det som CSV eller som en Excel-arbeidsbok etc. (du kan også bruke dette på en web server - returnerer en HTML-tabell, men stiller Content-Typeheader til application/ms-vnd.excel: Excel vil åpne og importere bordet og slå den inn i et regneark .)

Hvis du ønsker CSV å mate inn i en database så kan du gå via Excel som før, eller hvis du ønsker å automatisere prosessen, kan du skrive et program som bruker XML-navigering API du velger, til iterere av tabellrader og lagre dem som CSV. Pythons Elementtree og CSV-moduler ville gjøre dette ganske enkelt.

Svarte 16/09/2008 kl. 13:13
kilden bruker

stemmer
1

Etter gjennomgang av forslagene, jeg endte opp med HtmlUnit .

Med HtmlUnit, var jeg i stand til å tilpasse Java-kode for å åpne hver HTML-fil i mappen, går til bordet tag, spørre kolonne innhold hver og trekke ut data jeg trengte å opprette en CSV-fil.

Svarte 18/09/2008 kl. 17:15
kilden bruker

stemmer
0

iterere gjennom teksten og bruke regulære uttrykk :)

http://www.knowledgehouse.sg

Svarte 17/11/2008 kl. 00:40
kilden bruker

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more