Google maakt ocr voor gescande teksten mogelijk - Geachte redactie

zaterdag 1 november 2008 14:48

Acties:

Topicstarter

Vooraf zeg ik maar even, alles hangt af wat eigenlijk het artikel moet zeggen, ik weet niet hoe ik het moet interpreteren:

Moet ik het begrijpen als volgt: "Google kan nu PDF's die tekst EN afbeeldingen bevatten nu indexeren, want daarvoor was de OCR software te dom en hing ie zichzelf op of kon ie gewoon geen pdf's indexeren, alleen PURE tekst pdf's"

Of

"Google kan nu ook PDF's indexeren die geen tekst bevatten maar images met in die images de text" ?

Want dan denk ik dat je het beter iets kan aanpassen:

In de inleiding
Tot voor kort was het onmogelijk om ingescande pdf-documenten met behulp van Google te doorzoeken. Dat is nu veranderd: door de toevoeging van ocr aan zijn instrumentarium kan Google nu ook pdf'jes met afbeeldingen doorzoeken.

naar

Tot voor kort was het onmogelijk om pdf-documenten met tekst als een afbeelding met behulp van Google te doorzoeken. Dat is nu veranderd: door de toevoeging van ocr aan zijn instrumentarium kan Google nu ook pdf'jes met afbeeldingen doorzoeken.

Want ik vind het een beetje "wazig" in het artikel...

Want voor zover ik me herinner kon google wel behoorlijk goed zoeken in pdf's...

[ Voor 7% gewijzigd door HyperBart op 01-11-2008 14:49 ]

zaterdag 1 november 2008 17:30

Acties:

Harm

Google kon al behoorlijk goed zoeken in pdf'jes, dat klopt. Google kon echter niet zoeken in pdf'jes die bestonden uit ingescande tekstafbeeldingen. Dat is wat Google nu wel kan en dat is wat er staat. Ik heb een kleine wijziging gedaan in de tweede zin van de lead waardoor er over 'tekstafbeeldingen' gepraat wordt. De eerste zin heb ik zo gelaten.

zaterdag 1 november 2008 21:08

Acties:

DigitalBrains

... dat de software slecht omging met niet-schreefloze en kleine letters.

Dit lijkt mij een niet-foutloos gebruik van een dubbele ontkenning

. Tenzij ik een uitdrukking uit het jargon van de zetkunst mis, lijkt me "letters met schreef" beter. Hoe dit als bijvoeglijk naamwoord te doen weet ik ook niet.

<edit>
Daarentegen kan dit natuurlijk weer wel:

... met schreefletters en kleine letters.

en misschien mag dat zelfs samengetrokken tot

... met schreef- en kleine letters.
</edit>

[ Voor 23% gewijzigd door DigitalBrains op 01-11-2008 21:11 ]

zaterdag 1 november 2008 21:20

Acties:

Harm

O ja, dat was een aanpassing die ik nog had willen doorvoeren maar vergeten was. * Harm gaat aan de slag.

[edit]
Voor wat betreft je edit: dat is inderdaad toegestaan. Een vraag over exact deze situatie heb ik van de zomer gesteld aan een van de Nederlandse taalorganisaties en beantwoord gekregen.

[ Voor 46% gewijzigd door Harm op 01-11-2008 21:22 ]

zaterdag 1 november 2008 23:12

Acties:

DigitalBrains

Ha leuk, weer wat geleerd

<edit>
Hmmm maar de constructie

dat de software slecht omging met kleine- en schreefletters.

kan toch weer niet omdat kleineletters geen woord is...
</edit>

[ Voor 76% gewijzigd door DigitalBrains op 01-11-2008 23:16 ]

zaterdag 1 november 2008 23:16

Acties:

Harm

Heuh, dat is ook weer waar

.