[php] Ms-word document eigenschappen

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Hallo,

Ik zou graag de eigenschappen van een word document willen extraheren uit een document ZONDER daarbij gebruik te maken van COM toestanden (het moet onder linux kunnen draaien). Dus dat hij alleen even hoeft te snuffelen aan een bestand en dan een mooie array terug geeft met de autheur, titel etc.

Acties:
  • 0 Henk 'm!

  • NMe
  • Registratie: Februari 2004
  • Laatst online: 09-09 13:58

NMe

Quia Ego Sic Dico.

Wat heb je zelf al gezocht en gevonden? Wat heb je geprobeerd? Waarom is dat niet goed? Je topicstart komt over alsof je even snel een vraagje dumpt en verwacht dat wij je probleem wel even voor je oplossen zonder dat je zelf moeite hoeft te doen, en zo werkt GoT niet.

Om inhoudelijk op je probleem in te gaan: ik geef je weinig kans dat er zoiets bestaat, buiten de COM-library om. Je kan proberen de specificatie van Word files op te zoeken, maar ook daar wens ik je veel succes mee, aangezien die standaard AFAIK niet open is.

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.


Acties:
  • 0 Henk 'm!

  • Icelus
  • Registratie: Januari 2004
  • Niet online
-NMe- schreef op vrijdag 17 juni 2005 @ 23:08:
Je kan proberen de specificatie van Word files op te zoeken, maar ook daar wens ik je veel succes mee, aangezien die standaard AFAIK niet open is.
www.wotsit.org heeft een aantal documenten over het formaat.

Developer Accused Of Unreadable Code Refuses To Comment


Acties:
  • 0 Henk 'm!

  • NMe
  • Registratie: Februari 2004
  • Laatst online: 09-09 13:58

NMe

Quia Ego Sic Dico.

Op die site zie ik alleen maar specificaties voor versies tot en met Word 97. Ik meen me te herinneren dat het formaat in Word 2000 lichtelijk gewijzigd is, waardoor modernere documenten niet zomaar meer in te lezen zullen zijn, maar dat zeg ik uit mijn blote hoofd en is niet gebaseerd op feiten. :)

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.


Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Nou ik heb flink lopen struinen over google en tweakers zelf. Word files converteren naar text enzo zijn wel dingen voor (antiword). Maar echt die properties opvragen wordt moeilijk. Al zou dat wel moeten kunnen als je ook de text zelf uit word documenten kan halen. Ik heb gezien dat in word documenten zelf als je ze opent met bv notepad de titel er bv plain text instaat. Alleen ik heb geen idee hoe je deze er uit zou moeten krijgen omdat de tekens er om heen niet echt een "anchor" punt vormen om het eruit te filteren

Acties:
  • 0 Henk 'm!

  • jochemd
  • Registratie: November 2000
  • Laatst online: 24-08 12:31
Word 2003 formaat (a.k.a. WordML) is gewoon XML, daar kan je het zo met een XPath uit trekken.

Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Als naast word 2003 die andere word versies de titel op een of andere manier op dezelfde manier erin hebben staan. Zou het mogelijk moeten zijn. Maar weet niet zo 1 2 3 wat te doen dan met zo'n data brei.
Pagina: 1