Paperless-NGX (machine learning) werkt niet op documenten

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
Intro
Ik ben begonnen met Paperless NGX. Deze tool (zelf hosted) zorgt ervoor dat ik alle documenten en ingescande bonnen e.d. automatisch en ook doormiddel van machine learning kan doorzoeken. Je hoeft dan (theoretisch gezien) documenten en scans nooit meer van informatie te voorzien en in mappen te gooien, omdat je middels OCR de bestanden kan doorzoeken.

Mijn vraag
Nu is het alleen zo, dat ik paperless-ngx al heel wat heb geleerd aan de hand van tags e.d., maar welke documenten ik ook toevoeg, hij gooit er zelf geen tags of andere dingen aan vast. Oftewel, het lijkt alsof het "machine learning" stuk niet werkt.

Heeft iemand enige ervaring met deze software, en kan hij/zij mij misschien wat op weg helpen.
Ik loop overal te zoeken en te kijken hoe ik het op kan lossen, echter alles zonder resultaat.

Je zou middels dit commando de boel moeten kunnen forceren, maar ook dat geeft niet het gewenste resultaat

code:
1
document_create_classifier


Ik vind het nog steeds een mooie tool, want ik zocht al een tijdje naar een eigen oplossing om volledig "paperless" te gaan.

Als je dit kunt lezen, dan werkt mij Signature!

Beste antwoord (via Wachten... op 31-07-2023 10:25)


  • RudolfR
  • Registratie: Maart 2011
  • Laatst online: 13:36
Toevallig net erover zitten lezen en deze blog geeft aan dat er ongeveer 20 voorbeelden nodig zijn:

https://skerritt.blog/how-i-store-physical-documents/

Alle reacties


Acties:
  • 0 Henk 'm!

  • synoniem
  • Registratie: April 2009
  • Niet online
Als ik naar de documentatie kijk moet je nog wel matching criteria opgeven:
assign a match and matching algorithm using the web interface

Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
synoniem schreef op donderdag 27 juli 2023 @ 23:08:
Als ik naar de documentatie kijk moet je nog wel matching criteria opgeven:
[...]
Ja dat heb ik wel gedaan. Ik heb bijvoorbeeld een aantal bonnen van dezelfde firma. Dus ik zou verwachten ik tag een paar van die bonnen handmatig, en dan snapt hij het wel. Maar als ik het zo lees moet hij echt wel leren van veel documenten en ook fouten.

Mocht iemand er toch meer over weten dan hoor ik het graag.

Zo zeggen namelijk wel dat als je bank transfer documenten inscant, dat hij het dan waarschijnlijk snel oppakt, omdat het nummer iedere keer overeen komt. Dit zou ik dan ook verwachten van diverse bedrijven etc. Als ik 20 bonnen van de Bouwmaat inscan, dan mag ik toch hopen dat hij dat wel snel automatisch oppakt toch :)

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • 0 Henk 'm!

  • synoniem
  • Registratie: April 2009
  • Niet online
Wat heb je dan als matching algoritme opgegeven?
None, Any, All, Exact, Regular expression, Fuzzy match of Auto?

Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
synoniem schreef op donderdag 27 juli 2023 @ 23:41:
Wat heb je dan als matching algoritme opgegeven?
None, Any, All, Exact, Regular expression, Fuzzy match of Auto?
Voor nu heb ik even auto aangegeven op de tags.

Het is namelijk nog een beetje zoeken, maar zolang er niks gebeurd is het lastig bepalen wat ik nodig heb of moet gebruiken. Ze leggen er ook weinig over uit.

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • Beste antwoord
  • +1 Henk 'm!

  • RudolfR
  • Registratie: Maart 2011
  • Laatst online: 13:36
Toevallig net erover zitten lezen en deze blog geeft aan dat er ongeveer 20 voorbeelden nodig zijn:

https://skerritt.blog/how-i-store-physical-documents/

Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
RudolfR schreef op zondag 30 juli 2023 @ 17:19:
Toevallig net erover zitten lezen en deze blog geeft aan dat er ongeveer 20 voorbeelden nodig zijn:

https://skerritt.blog/how-i-store-physical-documents/
Dank je, echt een heel interessant stuk als ik het even snel scan. Ik ga het straks volledig lezen.

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
@RudolfR Dank nogmaals voor je bericht. Ik heb heel het artikel gelezen, en daar zitten toch wel weer wat handige tips bij.

Ik kom er nu inderdaad achter dat er 2 factoren meespelen. Ten eerste is de hoeveelheid en ten tweede de match met de vorige scans.

Wat ik hiermee bedoel is het volgende
Met bijvoorbeeld facturen die ik via de mail binnen die zijn voor nagenoeg 100% te lezen door het systeem, omdat de OCR goed werkt. Hierbij zie je dus dat bijvoorbeeld facturen van een bepaald bedrijf al na een stuk of 4 scans automatisch worden herkend. Dit gebeurd echter niet met iedere scan, maar je ziet dat hij daarmee vrij snel leert.

Met ingescande bonnetjes is het een heel ander verhaal. Ik merk dat welke app ik ook gebruik, dat de OCR gewoon niet volledig goed wordt gelezen, zo kom ik diverse problemen tegen:
  • Een L wordt vaak al / gezien
  • een T wordt vaak als i gezien
  • barcodes worden niet goed herkend
  • en zo nog wat kleine dingen
Het wordt hierdoor dus heel lastig voor het systeem (denk ik) om een match te vinden. en heeft het wellicht veel meer input nodig. Ik ga het dus even in de gaten houden.

Ik maak overigens gebruik van microsoft Lens (wel offline uiteraard), aangezien die toch wel de beste scans maakt. Ik heb ook de app Paperless mobile, maar die maakt wel wat meer een zootje van de scans. Wat ook wel echt helpt is om bonnetjes echt direct in te scannen. Nu deed ik dit vaak thuis, maar dan waren ze toch al gevouwen. Dit komt niet ten goede voor de scans die je maakt.

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • +1 Henk 'm!

  • NielsFL
  • Registratie: Februari 2020
  • Niet online
Bij mij werkt dit naar behoren. Waar ik wel tegen aan liep is dat je hem eerst moet trainen met een handjevol bonnen van elke leverancier alvorens je hem een hele bak documenten voert. Documenten die hij eenmaal verwerkt heeft gaat hij niet opnieuw bekijken en blijven dus van een onbekende leverancier, ondanks dat hij het inmiddels wel snapt.

Mijn grootste probleem is dat hij datums door elkaar haalt. Je kunt 1 datum format opgeven maar als je zaken doet met de hele wereld krijg je zowel dd/mm/yy als mm/dd/yy en dan gaat het vaak mis. Eigenlijk zou ik deze instelling per leverancier will doen, maar dat is me nog niet gelukt.

OCR laat ik overigens door Paperless zelf doen. Dat werkt voor mij beter dan al die mobiele apps. Documenten gaan hier ook in de "gewone" scanner (wel automatische feeder en e-mail naar paperless) ipv een fotootje.

[ Voor 14% gewijzigd door NielsFL op 31-07-2023 10:15 ]


Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
@NielsFL Dank voor je reactie.

Ja zover ik het nu ook een beetje begrijp en achter kom, is dat je de eerste bonnentjes e.d. zo specifiek mogelijk moet maken. Dus alle tags eraan gooien, correspondent, documenttype en tags. Vanuit daar kan hij dan leren, want inderdaad doet hij eerder ingescande bonnen niet opnieuw nalopen.

Het enige wat ik mij afvraag, is of hij ook echt leert van wijzigingen die je maakt in de "content" tab?
Want dat is het OCR stukje wat door de mobiele app wordt gemaakt. Als jij de hele tijd de i voor een T veranderd, gaat hij daar ook van leren? Dit is mij niet helemaal duidelijk.

En hoe gebruik jij overigens het "documenttype"? Ik heb nu bijvoorbeeld "facturen", "bonnetjes", "Diploma`s", etc gemaakt. Maar ik betwijfel een beetje of dit is wat ze met het type bedoelen.

Verder ben ik wel direct verslaafd geraakt aan het "paperless" werken. Je hebt er soms heel even wat werk aan om alle tags e.d. goed te zetten, maar het maakt het voor in de toekomst zoveel makkelijker als je wat zoekt/nodig hebt.

Ik ben overigens ook nog even aan het kijken hoe ik makkelijk de consume folder kan syncen met een andere folder (op synology). Ik wil voor iedereen dat er standaard een consume folder in hun drive map (home map) komt te staan, die dan synct met de consume map voor die gebruiker.

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • 0 Henk 'm!

  • NielsFL
  • Registratie: Februari 2020
  • Niet online
Volgens mij leert hij niet van wijzigingen in Content. Voor zover ik weet is de OCR "dom" en kun je die niet op deze manier verbeteren.

Ik heb inderdaad Facturen, Belastingaanslagen, Belastingbrieven, etc. Je bent helemaal vrij om het te gebruiken zoals jij wilt. Uiteindelijk resulteert dit in een variabele die je kunt gebruiken om de directory structuur in je archief te bepalen. In mijn geval stuur ik verschillende directories naar verschillende personen bij een administratiekantoor, dus dat heb ik als leidraad genomen.

Ik heb op Paperless, mijn laptop, PC en mijn NAS een Consume directory die ik sync met syncthing. Werkt prima. Ik ontvang een PDF, bewaar hem in de Consume directory en een tijdje later is hij daar door Paperless weggehaald.

Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
NielsFL schreef op maandag 31 juli 2023 @ 10:41:
Volgens mij leert hij niet van wijzigingen in Content. Voor zover ik weet is de OCR "dom" en kun je die niet op deze manier verbeteren.

Ik heb inderdaad Facturen, Belastingaanslagen, Belastingbrieven, etc. Je bent helemaal vrij om het te gebruiken zoals jij wilt. Uiteindelijk resulteert dit in een variabele die je kunt gebruiken om de directory structuur in je archief te bepalen. In mijn geval stuur ik verschillende directories naar verschillende personen bij een administratiekantoor, dus dat heb ik als leidraad genomen.

Ik heb op Paperless, mijn laptop, PC en mijn NAS een Consume directory die ik sync met syncthing. Werkt prima. Ik ontvang een PDF, bewaar hem in de Consume directory en een tijdje later is hij daar door Paperless weggehaald.
Maar hoe heb je dat ingericht met meerdere users? Want ik zie maar 1 consume map in docker, en niet een gebruikersmap met daarin een consume map?

Ik heb straks namelijk 3 mensen die erin gaan werken, maar ik wil wel dat het per gebruiker in hun eigen omgeving komt. Ik wil ze echter niet de rechten geven tot de docker map.

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • 0 Henk 'm!

  • NielsFL
  • Registratie: Februari 2020
  • Niet online
Ik ben de enige gebruiker. Volgens mij is het niet echt geschikt voor meerdere verschillende datasets. In dat geval zou ik simpelweg meerdere instances naast elkaar draaien.

Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
NielsFL schreef op maandag 31 juli 2023 @ 11:09:
Ik ben de enige gebruiker. Volgens mij is het niet echt geschikt voor meerdere verschillende datasets. In dat geval zou ik simpelweg meerdere instances naast elkaar draaien.
Al lijkt me dat zelf sterk, want je kunt gebruikers en groepen aanmaken. Mij lijkt dus dat het juist prima mogelijk is om dit te realiseren.

Ik ga even op zoektocht, want die consume folder is wel echt handig om te hebben.

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
NielsFL schreef op maandag 31 juli 2023 @ 10:13:


OCR laat ik overigens door Paperless zelf doen. Dat werkt voor mij beter dan al die mobiele apps. Documenten gaan hier ook in de "gewone" scanner (wel automatische feeder en e-mail naar paperless) ipv een fotootje.
Maar hoe bedoel je dat? Want als je documenten of bonnetjes niet digitaal hebt, dan moet je het wel scannen met een app toch (of scanner)? En dan lijkt mij dat Microsoft lens (even als voorbeeld) dit beter oppakt qua OCR dan papperless zelf.

Ik heb geregeld bonnetjes van etentjes e.d. die ik toch zo goed mogelijk in wil scannen en dat het automatisch herkend wordt.

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • 0 Henk 'm!

  • NielsFL
  • Registratie: Februari 2020
  • Niet online
Wachten... schreef op maandag 31 juli 2023 @ 11:13:
[...]
Al lijkt me dat zelf sterk, want je kunt gebruikers en groepen aanmaken. Mij lijkt dus dat het juist prima mogelijk is om dit te realiseren.
Naar mijn idee is dit voor meerdere gebruikers die samen dezelfde data beheren. Maar ik heb het graag mis in dit geval :-)

Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
@NielsFL

Ik wilde ook even Syncthing installeren om in ieder geval de consume map te syncen, maar ik vraag me af waarom in dit artikel van MariusHosting een data 1 en data 2 map worden aangemaakt?

En mochten deze echt nodig zijn, kan ik het dan ook zo configureren qua map structuur, want zoals hij het aangeeft, dan staan de data1 en data2 map tussen alle docker mappen en niet in de syncthing map.

docker
-- syncthing
--------syncthing
--------data1
--------data2

Uiteraard moet ik dan wel het scrypt aanpassen, maar was benieuwd of dit nu zo aan te passen is. Ik heb ook geen idee wat die data1 en data2 map doen verder.

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • 0 Henk 'm!

  • NielsFL
  • Registratie: Februari 2020
  • Niet online
Geen idee waarom ze dat doen. Ik synchroniseer alleen de Consume directory.

Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
NielsFL schreef op maandag 31 juli 2023 @ 16:13:
Geen idee waarom ze dat doen. Ik synchroniseer alleen de Consume directory.
Dus die data 1 data 2 heb je niet eens nodig bedoel je?

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
@NielsFL Ik kom er even niet uit met de rechten.
Ik heb inmiddels Synchthing draaien, echter als ik een folder share aan wil maken en verwijs naar /volume1/docker/paperless/consume, dan geeft hij aan permission denied.

Waar moet ik deze rechten precies instellen zodat hij wel toegang heeft tot die specifieke folder?

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • 0 Henk 'm!

  • NielsFL
  • Registratie: Februari 2020
  • Niet online
Ik heb daarvoor in File Station de gebruiker 'sc-syncthing' lees en schrijf rechten gegeven tot de Consume directory.

Acties:
  • 0 Henk 'm!

  • Wachten...
  • Registratie: Januari 2008
  • Laatst online: 14:16
NielsFL schreef op maandag 31 juli 2023 @ 18:04:
Ik heb daarvoor in File Station de gebruiker 'sc-syncthing' lees en schrijf rechten gegeven tot de Consume directory.
Maar jij draait de syncting dus niet in een Docker container?

Want die user krijg je enkel als je de community app gebruikt geloof ik. Mijn docker heeft gewoon admin rechten volgens mij

Als je dit kunt lezen, dan werkt mij Signature!


Acties:
  • 0 Henk 'm!

  • NielsFL
  • Registratie: Februari 2020
  • Niet online
Ik gebruik inderdaad geen Docker.
Pagina: 1