Ik ga binnenkort, voor een bepaald web-based project, een full-text search feature moeten voorzien voor een heel aantal documenten (10GB). Veel van deze documenten zijn pdf's en men wil dan ook de mogelijkheid hebben om een full-text search uit te voeren. Voor deze feature komt het Lucene framework leuk om de hoek kijken.
Nu ben ik juist even aan het experimenteren geweest met het indexeren van de PDF's en hier heb je dan ook een heel aantal libraries voor. Mijn keuze hiervoor is dan op PDFBox gevallen. Echter in mijn lokale testresultaten zou het ongeveer een 20-tal uren duren alvorens de 10GB aan documenten geïndexeerd zullen zijn. Aangezien dit slechts 1x moet gebeuren is dit wel een haalbaar feit.
Nu kwam ik ook volgende PDF extractor tegen, namelijk: PDFTextStream.
Dit is wel een commerciële versie (prijs: 2000$) en alhoewel ik eerder geneigd ben naar OpenSource projecten vond ik deze benchmark-resultaten toch opmerkelijk.
De prijs van de PDFTextStream is wel redelijk hoog. Vooral dan ook het feit dat dit project bij meerdere klanten zal moeten geïmplementeerd worden en dus ook iedere keer de $2000 betaald zal moeten worden.
Nu weet ik niet in welke mate ik belang moet hechten aan deze resultaten. Zijn er personen die ervaring hebben op j2ee gebied met full-text search en indexering van pdf's? En zoja, wat zijn de ervaringen hiermee?
Moet er veel belang gehecht worden aan de snelheid van deze PDF-libs, en zijn er misschien PDF-libs die mij beter zouden passen??
Het zelf schrijven van dergelijke PDF-extractor lijkt me een beetje te ver gaan, aangezien het dan nog maar de vraag is of de snelheid gemeten kan worden aan die van PDFBox.
Alle ervaringen/tips/plan van aanpak zijn welkom!
Nu ben ik juist even aan het experimenteren geweest met het indexeren van de PDF's en hier heb je dan ook een heel aantal libraries voor. Mijn keuze hiervoor is dan op PDFBox gevallen. Echter in mijn lokale testresultaten zou het ongeveer een 20-tal uren duren alvorens de 10GB aan documenten geïndexeerd zullen zijn. Aangezien dit slechts 1x moet gebeuren is dit wel een haalbaar feit.
Nu kwam ik ook volgende PDF extractor tegen, namelijk: PDFTextStream.
Dit is wel een commerciële versie (prijs: 2000$) en alhoewel ik eerder geneigd ben naar OpenSource projecten vond ik deze benchmark-resultaten toch opmerkelijk.
De prijs van de PDFTextStream is wel redelijk hoog. Vooral dan ook het feit dat dit project bij meerdere klanten zal moeten geïmplementeerd worden en dus ook iedere keer de $2000 betaald zal moeten worden.
code:
1
2
| PDFTextStream: 28.998 seconden PDFBox: 156.477 seconden (oftewel 5x zolang) |
Nu weet ik niet in welke mate ik belang moet hechten aan deze resultaten. Zijn er personen die ervaring hebben op j2ee gebied met full-text search en indexering van pdf's? En zoja, wat zijn de ervaringen hiermee?
Moet er veel belang gehecht worden aan de snelheid van deze PDF-libs, en zijn er misschien PDF-libs die mij beter zouden passen??
Het zelf schrijven van dergelijke PDF-extractor lijkt me een beetje te ver gaan, aangezien het dan nog maar de vraag is of de snelheid gemeten kan worden aan die van PDFBox.
Alle ervaringen/tips/plan van aanpak zijn welkom!