Ik heb een interessante uitdaging:
Ik wil het volgende doen:
Ik ben bezig met een opdracht om een hoop producten te analyseren. Wat ik wil doen is stuklijsten creeëren en de niet interessante producten uitfilteren.
Ik kan deze stuklijsten oproepen, deze zijn opgeslagen als PDF bestanden en gegenereerd uit ik dacht een database.
Deze stuklijsten bestaan uit een kolom met een soort boomstructuur, waardoor te zien is welk onderdeel onder welke samenstelling valt. Deze informatie is belangrijk voor mijn analyse.
Naast deze kolom staan de onderdelen.
Alleen, de PDF's zijn niet netjes gemaakt. De ene PDF bestaat uit de boomstructuur als afbeelding met daarnaast de onderdelen als tekst, maar andere PDF's bestaan uit afbeeldingen.
Wat is nou mijn vraag:
Is het mogelijk een programma te draaien of iets te doen zodat de boomstructuur behouden blijft, maar de onderdeelnamen die in de PDF afbeeldingen zijn, om te zetten naar karakters?
Op die manier zou ik met een PDF-bewerker de onderdelen die niet interessant zijn grijs kunnen maken zonder àlles eerst uit te printen.
Ik wil dus uiteindelijk vanuit de "100%afbeelding-PDF" een andere PDF of document hebben zodat ik de karakters kan bewerken en de boomstructuur zichtbaar blijft. Dan kan ik de stuklijsten naar mijn wens bewerken.
Ik heb al geprobeerd om de PDF om te zetten in .doc door middel van tekstherkenning, maar dan gaat de boomstructuur verloren. Die zou ik handmatig er dan weer in moeten gaan knutselen en dat kost me te veel tijd.
Ik wil het volgende doen:
Ik ben bezig met een opdracht om een hoop producten te analyseren. Wat ik wil doen is stuklijsten creeëren en de niet interessante producten uitfilteren.
Ik kan deze stuklijsten oproepen, deze zijn opgeslagen als PDF bestanden en gegenereerd uit ik dacht een database.
Deze stuklijsten bestaan uit een kolom met een soort boomstructuur, waardoor te zien is welk onderdeel onder welke samenstelling valt. Deze informatie is belangrijk voor mijn analyse.
Naast deze kolom staan de onderdelen.
Alleen, de PDF's zijn niet netjes gemaakt. De ene PDF bestaat uit de boomstructuur als afbeelding met daarnaast de onderdelen als tekst, maar andere PDF's bestaan uit afbeeldingen.
Wat is nou mijn vraag:
Is het mogelijk een programma te draaien of iets te doen zodat de boomstructuur behouden blijft, maar de onderdeelnamen die in de PDF afbeeldingen zijn, om te zetten naar karakters?
Op die manier zou ik met een PDF-bewerker de onderdelen die niet interessant zijn grijs kunnen maken zonder àlles eerst uit te printen.
Ik wil dus uiteindelijk vanuit de "100%afbeelding-PDF" een andere PDF of document hebben zodat ik de karakters kan bewerken en de boomstructuur zichtbaar blijft. Dan kan ik de stuklijsten naar mijn wens bewerken.
Ik heb al geprobeerd om de PDF om te zetten in .doc door middel van tekstherkenning, maar dan gaat de boomstructuur verloren. Die zou ik handmatig er dan weer in moeten gaan knutselen en dat kost me te veel tijd.
vrede in rust