[Java] Verschillende documenten uitlezen

Pagina: 1
Acties:

  • Deddiekoel
  • Registratie: Maart 2000
  • Laatst online: 12-11-2025

Deddiekoel

Gadget nerd

Topicstarter
Ik ben na een lange tijd weer eens met Java aan de gang gegaan en heb wat ideeen. Maar mijn kennis reikt op het moment niet ver genoeg om deze ook echt uit te voeren. Voor de ideeen die ik heb moet ik eigenlijk verschillende document kunnen uitlezen op inhoud. Het gaat hierbij om MS Word documenten en HTML pagina's.

De Word documenten wil ik eigenlijk doorlezen en daaruit de tekst, plaatjes en simpele opmaakprofielen halen.

HTML documenten wil ik naar een DOM model parsen zodat ik de inhoud en attributen van verschillende tags kan uitlezen.

Ik kom hier echter maar niet verder mee. Weet iemand hier hoe ik deze dingen kan aanpakken? Het liefst schrijf ik dingen zelf tov bestaande klassen. Maar als er nix anders is dan moet ik het daar maar mee doen!

Verlanglijstje: Switch 2, PS5 Pro Most wanted: Switch 2


Verwijderd

ik denk dat je hiermee wel wat kan inlezen.

http://jakarta.apache.org/lucene/

maar ik weet niet goed wat je bedoelt hoor... Lucene is vooral bedoeld voor indexering van gegevens voor een search engine.
Als je alles wil inlezen om de data er gewoon uit te halen (richting DB bijvoorbeeld) kun je beter met POI aan de slag voor Word documenten en een of andere XML parser voor (X)HTML... (hier was ale eens een topic voor op GoT).

(misschien kan het ook met Lucene, dat weet ik eigenlijk niet zo)

  • Alarmnummer
  • Registratie: Juli 2001
  • Laatst online: 09-07-2024

Alarmnummer

-= Tja =-

Verschillende ms formaten kan je aanspreken met:
http://jakarta.apache.org/poi/

[edit]
Ik zie dat voodoochile dat ook al had vermeld.

[ Voor 27% gewijzigd door Alarmnummer op 11-08-2004 15:52 ]


  • Deddiekoel
  • Registratie: Maart 2000
  • Laatst online: 12-11-2025

Deddiekoel

Gadget nerd

Topicstarter
Wat ik wil doen is de tekst uit een Word document naar een database schoppen.

Voor een HTML document wil ik de verschillende elementen kunnen benaderen. Zo wil ik bijvoorbeeld plaatjes eruit kunnen halen of tabellen.

Verlanglijstje: Switch 2, PS5 Pro Most wanted: Switch 2


  • Alarmnummer
  • Registratie: Juli 2001
  • Laatst online: 09-07-2024

Alarmnummer

-= Tja =-

Deddiekoel schreef op 11 augustus 2004 @ 16:18:
Wat ik wil doen is de tekst uit een Word document naar een database schoppen.

Voor een HTML document wil ik de verschillende elementen kunnen benaderen. Zo wil ik bijvoorbeeld plaatjes eruit kunnen halen of tabellen.
Wat is het probleem dan?

Dus je weet niet hoe je een formaat kan aanspreken zoals HTML of Word? Of je weet niet hoe je het moet ontwerpen?

Verwijderd

Deddiekoel schreef op 11 augustus 2004 @ 16:18:
Wat ik wil doen is de tekst uit een Word document naar een database schoppen.

Voor een HTML document wil ik de verschillende elementen kunnen benaderen. Zo wil ik bijvoorbeeld plaatjes eruit kunnen halen of tabellen.
tja, je kan iets gebruiken als httpclient (jakarta commons), er stond onlangs een uitlegje op TheServerSide....
Daar doe je een request, je krijgt een response (alles rond een conversation) en dan kun je daaruit getTables doen, of getTableWithId en dergelijke...
offtopic:
Wij gebruiken het onrechtstreeks met HttpUnit voor unit tests rechtstreeks op de view.
(bijvoorbeeld, ik haal de tabel met id 'personTable' op, loop over z'n headers en controleer of het de juiste headers zijn en het correcte aantal, en dat voor de verschillende gevallen waarin die headers moeten verschillen adhv Struts parameters).

Dus daar kun je mooi alle images/tables/... mee opvragen op een mooie OO manier en hoef je zelf niet met DOM te klooien.

Voor die word documenten moet je dus bij POI zijn (maar support voor DOC format is al jaren in ontwikkeling, eigenlijk is enkel Excel relatief stabiel). Het zal wel bruikbaar zijn voor niet al te recente word versies hoor...

[edit]
was zelf nieuwsgierig naar het hoe precies:
http://jakarta.apache.org...tractor/WordDocument.html
en dan die out een string StringWriter geven en alles zit reeds mooi in een string....lijkt me wel het proberen waard....

[ Voor 10% gewijzigd door Verwijderd op 11-08-2004 17:06 ]


  • Deddiekoel
  • Registratie: Maart 2000
  • Laatst online: 12-11-2025

Deddiekoel

Gadget nerd

Topicstarter
Ok, voor Word ga ik met POI aan de slag!

Maar voor HTML bestanden. Ik wil gewoon een webpagina kunnen parsen tot een DOM model. Java heeft daar meen ik standaard klassen voor maar ik kom er niet uit hoe ik deze moet gebruiken.

Verlanglijstje: Switch 2, PS5 Pro Most wanted: Switch 2

Pagina: 1