PDF naar Excel (regex? notepad++?)

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • HenkEisDS
  • Registratie: Maart 2004
  • Laatst online: 13:38
Mijn vraag
Ik heb een PDF met 5000 Engelse woorden en hierachter de definitie. Ik wil dit bestand inladen in mijn flashcard app Cram zodat ik ze uit mijn hoofd kan leren. Hiervoor moet ik ze netjes in excel zien te krijgen, maar volgens mij is de PDF een rommeltje. Is er een gemene deler die ik kan gebruiken om toch de woorden en hun definitie netjes in twee kolommen te krijgen zonder alle 5000 woorden handmatig te hoeven controleren.

Dit is het bestand: http://www.alphaprep.org/...504966/5000_sat_words.pdf

Relevante software en hardware die ik gebruik
Excel
Notepad++
Firefox, Chrome

Wat ik al gevonden of geprobeerd heb
- Online tools om PDF om te zetten naar Excel werken niet.
- PDF open in Word
- Regex regel die de eerste spatie vervangt door een separator heb ik niet werkend gekregen.

Om een beeld te krijgen van de data:

Het resultaat van PDF to Excel
https://imgur.com/a/HzGHnuK
Afbeeldingslocatie: https://i.imgur.com/0VRxAmp.png

PDF to Word
https://imgur.com/a/Yw1WJ8W
Afbeeldingslocatie: https://i.imgur.com/VR4gpAY.png

Word to Notepad++
https://imgur.com/a/uy6ubzs
Afbeeldingslocatie: https://i.imgur.com/IE6LTp0.png

PDF to Notepad++
https://imgur.com/a/UavZIYY
Afbeeldingslocatie: https://i.imgur.com/jns0w8z.png

Alle reacties


Acties:
  • 0 Henk 'm!

  • Roozzz
  • Registratie: Juni 2011
  • Laatst online: 12:58

Roozzz

Plus ultra

Dus hoe moet het eruit komen te zien? In mijn optiek is versie 1, afgezien van de witregels, vrij goed. De brondata is poep (tabs, spaties etc tussen de kolommen) dus in een keer perfect kan je vergeten.

Heb je al eens domweg de hele bubs gekopieerd naar excel en vervolgens met 'text to columns' de boel uit elkaar getrokken? Ik denk dat je met twee iteraties, eerst met tab als scheiding en vervolgens het resterende op basis van spaties je een heel eind bent.

If you can see, look. If you can look, observe


Acties:
  • 0 Henk 'm!

  • HenkEisDS
  • Registratie: Maart 2004
  • Laatst online: 13:38
Thanks voor je input. Het moeten gewoon twee kolommen in excel worden. Text to columns heb ik geprobeerd net, maar als ik de tekst vanuit de PDF naar Excel paste neemt hij geen tabs mee.

Heb nu het bestand vanuit Word naar PDF en vervolgens alle merged cellen unmerged. Dit haalt al een groot deel van de 'nette' regels weg en laat de 'vuile' regels staan. Het gebeurt vaak dat een definitie op een nieuwe regel begint, maar misschien kom ik hiermee iets verder.

Acties:
  • 0 Henk 'm!

  • Orion84
  • Registratie: April 2002
  • Laatst online: 15:42

Orion84

Admin General Chat / Wonen & Mobiliteit

Fotogenie(k)?

Weet niet of het exact dezelfde lijst is, maar hier staat een satwords 5000 in txt vorm: https://sites.google.com/a/brown.edu/csproj2daelemans/files

The problem with common sense is that it's not all that common. | LinkedIn | Flickr


Acties:
  • 0 Henk 'm!

  • HenkEisDS
  • Registratie: Maart 2004
  • Laatst online: 13:38
Dat is out-of-the-box thinking @Orion84 . Het is niet dezelfde, maar worst case kan ik terugvallen op jouw lijstje.