Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien
Toon posts:

Referentie web uit PDFs

Pagina: 1
Acties:

Verwijderd

Topicstarter
Hey,

Ik weet niet waar ik dit moet plaatsen dus probeer ik het hier maar.

Voor mijn afstuderen heb ik heel wat bronnen verzameld (70+; allemaal pdf). Binnen deze verzameling bronnen zou ik graag zichtbaar willen maken welke naar elkaar refereren (een persoonlijke 'citation index' dus; een soort van referentie web). Dat hoeft niet met een fancy plaatje, kan ook gewoon een saaie lijst zijn (kan zelfs gewoon de bestandsnaam zijn van waarin het is gevonden). Kent iemand een programma die dit doet voor mij?

Hoewel het behoorlijk wat bronnen zijn is het mogelijk dat ik een gedeelte met de hand zou doen. Ik kan nu titels zoeken in alle pdfs die ik heb en de resultaten zelf in een database plaatsen. Het probleem is echter dat wanneer ik een bron toevoeg aan de verzameling ik het hele proces weer moet herhalen. De links naar de nieuwe bron zijn gemakkelijk te achterhalen, maar of de nieuwe naar oude linkt, dat is het probleem. Dit zou opgelost kunnen worden met een 'batch search' (zo noem ik het maar), dat ik dus een bestand heb met alle titels van alle artikelen en die kan inladen in een zoekprogramma die dan 70+ keer automatisch zoekt en laat zien wat is gevonden. Ook dan kan ik het verder handmatig in een database invoeren. Kent iemand zo'n programma? (ik kan zelf niet programmeren in C++ oid)

Bedankt!

  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

offtopic:
Het zit inderdaad een beetje op de rand van verschillende onderwerpen / subfora. CSA lijkt vooralsnog best te passen.


Een indextool die dat automatisch in PDF's doet ken ik zelf in ieder geval niet. AFAIK gebeurt het ook bij 'echte' citation indices deels met de hand :+

Kan je twee eventueel geanonimiseerde voorbeelden geven van hoe de documenten en de verwijzingen er uit zien? Het is mij in ieder geval niet helemaal helder hoe de documenten naar elkaar verwijzen: "zie %titel%", een URL, een uniek ID, iets anders?

Aangezien het PDF is in plaats van een handiger formaat: staan alle verwijzingen netjes op een regel of soms ook afgebroken over twee regels of bladzijden? En zijn het digitaal-geboren documenten of soms ook gescande documenten?

Flauwste quick&dirty oplossing: vertel Windows of een ander OS dat het ook PDF moet doorzoeken, zet alles in 1 directory, zoek op "%titel%" en alle hits zijn bestanden waar dat document naar verwijst (m.u.v. het document %titel% zelf natuurlijk). Herhaal 70+ keer.
Afhankelijk van de verwijzingen kan dat met een scriptje, maar zelfs bij 70x is een handmatige actie misschien sneller dan bijv. PowerShell leren.

Trouwens welkom op GoT!

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)


Verwijderd

Topicstarter
Het zijn allemaal wetenschappelijke artikelen, dus aan het eind staat een referentielijst met daarin auteur, jaar en titel van het artikel waarnaar gerefereerd wordt (meeste zijn in de stijl van APA, maar niet allemaal). Aangezien sommige auteurs meerdere artikelen hebben geschreven (soms ook in hetzelfde jaar) is alleen het zoeken op de titel een optie. Even een voorbeeld:
Chamberlin, J. Novotney, A. Packard, E., & Price, M. (2008). Enhancing worker well-being: Occupational health psychologists convene to share their research on work, stress and health. Monitor on Psychology, 39(5), 26-29.

Het komt regelmatig voor dat een titel op twee regels staat, op meerdere bladzijdes is mogelijk maar komt zelden voor volgens mij. Daarnaast streef ik niet 100% perfectie naar, als er een paar gemist worden is geen ramp. Veruit de meeste zijn digitaal en kunnen doorzocht worden, de ingescande kan ik met de hand doen.

Zoeken via Windows kan als dit mijn uiteindelijke verzameling bronnen was. Maar hij zal ongetwijfeld worden uitgebreid en ik heb dus een 'snelle' manier nodig om alles up te daten.

  • gambieter
  • Registratie: Oktober 2006
  • Niet online

gambieter

Just me & my cat

Heb je toegang tot ISI Web of Knowledge? Die bevat namelijk veel van de informatie die je uit de pdfs wilt halen, waardoor je de eerste stap vast hebt gezet.

I had a decent lunch, and I'm feeling quite amiable. That's why you're still alive.


  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Inderdaad zijn die gegevens vaak op een veel meer gestructureerde manier dan in de pdf te vinden. Dat lijkt me een mooiere, snellere oplossing.

Een 90% foolproof oplossing zonder zware slimme scripts zie ik anders eigenlijk niet, gegeven de variatie die er in de pdfs toch nog is ondanks meestal APA.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)


Verwijderd

Topicstarter
Web of Knowledge doet inderdaad wat ik wil! Beetje info overkill, maar goed. Top, bedankt allebei!

  • gambieter
  • Registratie: Oktober 2006
  • Niet online

gambieter

Just me & my cat

Zoals onze wiskundigen zeggen: je kunt nooit teveel informatie hebben ;) . Mooi dat dit werkt.

I had a decent lunch, and I'm feeling quite amiable. That's why you're still alive.

Pagina: 1