Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

PDF omzetten naar excel tabel

Pagina: 1
Acties:

  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 27-11 14:22
Wie kan mij helpen? Ik ben al een dag aan het prutsen zonder fatsoenlijk resultaat :'(

Ik heb een pdf van bijna 300 blz waar ik graag een excel tabel van wil maken met 1 mineraal per rij.
Ik heb daarbij 2 problemen:

-In het originele pdf bestand neemt elk mineraal 2 regels in beslag
-De formules kloppen van geen kant meer na het kopieren / plakken

Wie heeft raad? Mijn dank is groot 8)

Voor de duidelijkheid heb ik even 1 blz als pdf. klikker de klik ;)

Verwijderd

Misschien lukt het via tussenstap PDF naar HTML? Hier zijn legio tools voor, zelfs Adobe heeft er 1:
http://www.adobe.com/prod...t/access_onlinetools.html

HTML is vrij gemakkelijk naar Excel te brengen denk ik, eventueel met tussenstap Word (om een tabel te hebben voordat je naar Excel gaat).

  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Je kunt een goede OCR tool proberen. Handiger is niet van PDF uit te gaan: de bron zal niet PDF zijn. Vraag aan de makers de originele file (of het nu Word of LaTeX is). Ik neem aan dat je al toestemming hebt om meer te doen dan te quoten (anders is 300 blz aan tekst kopieren eeeuhm niet netjes), dus dat lijkt me geen probleem.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)


  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 27-11 14:22
F_J_K schreef op dinsdag 22 juli 2008 @ 11:02:
Je kunt een goede OCR tool proberen. Handiger is niet van PDF uit te gaan: de bron zal niet PDF zijn. Vraag aan de makers de originele file (of het nu Word of LaTeX is). Ik neem aan dat je al toestemming hebt om meer te doen dan te quoten (anders is 300 blz aan tekst kopieren eeeuhm niet netjes), dus dat lijkt me geen probleem.
Ding is als PDF te downloaden van de eigen site, meer dan dat geven ze niet weg. Heb ik al gevraagd. Het is puur voor eigen gebruik en die ene blz zet ik hier alleen online om te laten zien wat de bedoeling is.

  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 27-11 14:22
Verwijderd schreef op dinsdag 22 juli 2008 @ 10:57:
Misschien lukt het via tussenstap PDF naar HTML? Hier zijn legio tools voor, zelfs Adobe heeft er 1:
http://www.adobe.com/prod...t/access_onlinetools.html

HTML is vrij gemakkelijk naar Excel te brengen denk ik, eventueel met tussenstap Word (om een tabel te hebben voordat je naar Excel gaat).
Die onlinetool geeft een error. Ik heb het echter ook al met de volledige versie van Acrobat geprobeerd en dat geeft een bagger resultaat

Verwijderd

Misschien een wat raar idee, maar wat als je de PDF opent en een CTRL+C, CTRL+V in Word doet? Heb je daar dan een tabel staan? Als die PDF namelijk geen tabel is wordt het omzetten denk ik niet makkelijk...

  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 27-11 14:22
Verwijderd schreef op dinsdag 22 juli 2008 @ 11:51:
Misschien een wat raar idee, maar wat als je de PDF opent en een CTRL+C, CTRL+V in Word doet? Heb je daar dan een tabel staan? Als die PDF namelijk geen tabel is wordt het omzetten denk ik niet makkelijk...
Als je dat doet krijg je alles onder elkaar in 1 kolom ;)
Op zich te doen behalve dat:

-de formules nog steeds bagger zijn
-het gebeurt regelmatig dat er geen Struz class is voor een mineraal waardoor 1 mineraal geen 3 maar slechts 2 regels onder elkaar innemen in de layout dus als je dat automatisch wil processen moet je dat hele ding door en overal een witregel invoeren waar de strunz class niet gegeven is.


Edit: Ik heb ook net even het bedrijf wat die pdf gemaakt heeft gemaild of ik geen excel versie kan krijgen. Wordt vervolgd...

[ Voor 8% gewijzigd door nielsgeode op 22-07-2008 16:18 ]


Verwijderd

Dan kun je met vrijwel 100% zekerheid zeggen dat die PDF ook geen tabel bevat, als ik een tabel uit een PDF kopieer dan komt hij normaalgesproken _wel_ als tabel in Word namelijk.

  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 27-11 14:22
Verwijderd schreef op dinsdag 22 juli 2008 @ 13:19:
Dan kun je met vrijwel 100% zekerheid zeggen dat die PDF ook geen tabel bevat, als ik een tabel uit een PDF kopieer dan komt hij normaalgesproken _wel_ als tabel in Word namelijk.
zou goed kunnen
toch wil ik er een tabel van *maken* :P

  • Coffeemonster
  • Registratie: Juli 2000
  • Laatst online: 17-11 13:43
Formules aanpassen lijkt me eenvoudig: Volgens mij wordt elk subscript-cijfer omgezet naar een ander symbool, wat voor zover ik heb gezien wel dezelfde is per cijfer (bv. £ is 3). Search&Replace does the trick

Verder zou ik het kopiëren naar Excel en met behulp van een macro de boel ordenen. Je kan dan per blok van 3 rijen controleren of de derde rij de format van die code (x.xx.xx) heeft. Is dat niet zo, dan heb je een blok van twee rijen. De eerste rij kan je dan splitsen in kolommen aan de hand van de spaties. En tenslotte alle rijen netjes achter elkaar in één rij zetten.

Met deze beschrijving moet je wel een macro ervan kunnen maken, lijkt me. Over VBA-macro's is inmiddels voldoende te vinden op GoT of met Google. ;)

Look for something long enough and you will find it; look for something without understanding, and it will find you.
A normal day at the stock exchange


  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 27-11 14:22
Coffeemonster schreef op dinsdag 22 juli 2008 @ 16:11:
Formules aanpassen lijkt me eenvoudig: Volgens mij wordt elk subscript-cijfer omgezet naar een ander symbool, wat voor zover ik heb gezien wel dezelfde is per cijfer (bv. £ is 3). Search&Replace does the trick

Verder zou ik het kopiëren naar Excel en met behulp van een macro de boel ordenen. Je kan dan per blok van 3 rijen controleren of de derde rij de format van die code (x.xx.xx) heeft. Is dat niet zo, dan heb je een blok van twee rijen. De eerste rij kan je dan splitsen in kolommen aan de hand van de spaties. En tenslotte alle rijen netjes achter elkaar in één rij zetten.

Met deze beschrijving moet je wel een macro ervan kunnen maken, lijkt me. Over VBA-macro's is inmiddels voldoende te vinden op GoT of met Google. ;)
Geniaal 8)
Ik heb nu alles in excel in het juiste formaat, moet alleen nog een search & replace doen van de formules, die laatste had ik zelf niet gezien _/-\o_

Edit: inmiddels heb ik een overzicht gemaakt van alle mogelijke sub en superscripts :D
Volgens google kan ik met Lucida Sans Unicode en de Character Map die dingen in Access krijgen. Even getest en werkt prima op een paar tekens na: x en . (punt) in subscript. Heeft iemand hier een oplossing voor?

[ Voor 13% gewijzigd door nielsgeode op 22-07-2008 20:45 ]


  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 27-11 14:22
Inmiddels ook een search & replace gedaan en er blijven 2 probleempjes over:

-In de originele pdf zitten bij een aantal formules vierkante blokjes die er uiteraard niet in thuis horen. Een voorbeeld is Actinolite hornblende op deze blz
Dat blokje plakken in kladblok en openen met een hex editor geeft: FF FE 7F 00
Kan het zijn dat ik een font mis waardoor ik die blokjes zie? Is er een manier om hier achter te komen?


-Bij het kopieren en plakken van alle data naar excel wordt subscript 0 vervangen door een ander blokje. Met een search & replace in excel heb ik alle andere symbolen vervangen, alleen dat blokje wat een 0 voor moet stellen krijg ik niet geplakt in het search veld.
arghhh! :(

Edit: Het teken waar het om gaat staat in dit excel document in veld A1 :)

Inmiddels ben ik erachter dat dit teken in een excel document hex code 02 moet zijn, maar dat staat er nog veeel meer in dus een search & replace van de hex code heeft geen nut :/

Edit2: Subscripttekens worden niet ondersteund in kladblok maar ik heb toch de oplossing :+ De originele formules in kladblok plakken en dan een search en replace doen en het blokje vervangen voor een ander teken wat wel herkent wordt (ik heb gekozen voor hoofdletter W met dakje). Daarna de hele handel weer terugkopieren in excel en daar alles weer vervangen :)

Zit ik alleen nog met die blokjes in de originele PDF

[ Voor 40% gewijzigd door nielsgeode op 23-07-2008 21:34 ]

Pagina: 1