Is er een API om metadata van Word bestanden (zoals auteur, samenvatting enz) in te lezen in Java? Heb (nog) niets kunnen vinden op het net, misschien dat iemand iets weet?
Je zou misschien een com beestje voor java kunnen opzoeken. Daarom kan je werken met het word-com object en waarschijnlijk de metadata er wel uithalen.
[edit]
http://www.linar.com/ dit is er een.
[edit]
http://www.linar.com/ dit is er een.
[ Voor 14% gewijzigd door Alarmnummer op 29-01-2004 18:36 ]
Als ik me niet vergis slaat Word z'n bestanden in het OLE2 formaat op. Via Google kom ik dan hier bij uit: DocFile. OLE2 is een soort zip-achtig formaat, wat inhoud dat er verschillende soorten gegevens gebundeld zitten in een soort virtuele bestandsstructuur. Waar de metadata precies zit weet ik niet uit m'n hoofd, maar als ik het me goed herinner dan is die redelijk eenvoudig te vinden wanneer je het bestand kan opsplitsen in z'n componenten.
http://jakarta.apache.org/poi/
Excel werkt al goed schijnt, aan de Word ondersteuning wordt hard gewerkt. MEta info schijnt nu al te werken, lezen en schrijven in het document nog niet.
Ik heb dit zelf ook nodig, dus ik ga hier binnenkort mee aan het testen. Als ik wat zinnigs ontdekt heb laat ik het hier nog wel even weten.
Excel werkt al goed schijnt, aan de Word ondersteuning wordt hard gewerkt. MEta info schijnt nu al te werken, lezen en schrijven in het document nog niet.
Ik heb dit zelf ook nodig, dus ik ga hier binnenkort mee aan het testen. Als ik wat zinnigs ontdekt heb laat ik het hier nog wel even weten.
POI is interessant, bedankt. Ik zoek een manier om automatisch metadata te extraheren van allerlei soorten bestanden (plaatjes, MP3, documenten). Voor ID3 1.1 en JPEGs (exif) heb ik al wat handige classes gevonden die juist dat doen; POI zou praktisch kunnen zijn voor Microsoft Office documenten, maar vraag me af wat de overhead is, want ik hoef de documenten zelf niet te openen/bewerken.
Als iemand nog andere praktische tools weet om metadata te extraheren uit andere bestandstypen, laat het me weten...
[edit] HPSF (onderdeel van POI) ziet er trouwens veelbelovend uit voor wat ik wil doen: mogelijkheid om enkel "simpele" eigenschappen als titel, auteur enz te extraheren...
Als iemand nog andere praktische tools weet om metadata te extraheren uit andere bestandstypen, laat het me weten...
[edit] HPSF (onderdeel van POI) ziet er trouwens veelbelovend uit voor wat ik wil doen: mogelijkheid om enkel "simpele" eigenschappen als titel, auteur enz te extraheren...
[ Voor 15% gewijzigd door Verwijderd op 29-01-2004 22:39 ]
In de Windows XP shell zitten dat soort features al. In Explorer krijg je ze in de Tiles/Details view bijvoorbeeld te zien; werkt voor MP3tjes, DOCjes, plaatjes, etc. Geen idee of je daar als gebruikersapplicatie programmatisch toegang toe kan krijgen, maar anders scheelt dat misschien een hoop werk. Nadeel is natuurlijk dat je er onmogelijk vanuit Java bij kan.
Pagina: 1