Tesseract op timestamp

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • tjanssen
  • Registratie: Augustus 2012
  • Niet online
Mijn vraag
Ik wil een timestamp uit een plaatje extracten:

Afbeeldingslocatie: https://tweakers.net/i/noCj9SDIjbHkOzo-H1DNP3RDKpA=/fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():strip_exif()/f/image/tCEkqfkOTVOfJYQcAnzYsKFR.jpg?f=user_large

Relevante software en hardware die ik gebruik
Tesseract:
code:
1
2
3
4
5
6
7
8
9
tesseract v5.5.0.20241111
 leptonica-1.85.0
  libgif 5.2.2 : libjpeg 8d (libjpeg-turbo 3.0.4) : libpng 1.6.44 : libtiff 4.7.0 : zlib 1.3.1 : libwebp 1.4.0 : libopenjp2 2.5.2
 Found AVX2
 Found AVX
 Found FMA
 Found SSE4.1
 Found libarchive 3.7.7 zlib/1.3.1 liblzma/5.6.3 bz2lib/1.0.8 liblz4/1.10.0 libzstd/1.5.6
 Found libcurl/8.11.0 Schannel zlib/1.3.1 brotli/1.1.0 zstd/1.5.6 libidn2/2.3.7 libpsl/0.21.5 libssh2/1.11.0


Wat ik al gevonden of geprobeerd heb
Nogal wat: verschillende psm settings, character sets en languages. Af en toe poept ie een getalletje uit, maar niks wat ook maar enigzins in de buurt komt... 8)7

Voor mijn gevoel is het plaatje goed leesbaar, maar op een of andere manier kan Tesseract er niets mee. Heeft iemand een idee welke parameters zouden kunnen werken?

Alle reacties


Acties:
  • +1 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Ik heb helaas niet de kant-en-klare optie, maar dit is wel iets wat je prima eens aan ChatGPT kunt voorleggen en die je prima kan helpen iets werkends te krijgen. En anders komt 'ie iig met ideeën waar 't euvel zou kunnen zitten:
Tesseract was unable to extract any text from the image as-is. This is likely due to factors such as:
  • High contrast between text and background causing noise.
  • Text color (blue) not contrasting well enough in grayscale.
  • Thin font with compression artifacts.
[...]
Even with optimized OCR settings for numeric characters and fixed-format input, Tesseract still couldn't extract text from this image. The issue could be due to:
  • Low resolution and pixelation.
  • Anti-aliasing and artifacts blending text with background.
  • Text color (blue) not sufficiently distinguished after grayscale.
To reliably extract the datetime from this kind of image, consider:
  • Increasing the image resolution (if possible before capture).
  • Converting it to pure black-on-white manually (e.g., masking out blue pixels).
  • Training Tesseract with a custom font model if this is a recurring format.
Persoonlijk zou ik eens beginnen (voor zover mogelijk) de timestamp gewoon wit te maken (in de bron; ik neem aan een IP camera). Ik zeg niet dat 't onleesbaar is, maar voor mij als mens is 't al niet superleesbaar.

[ Voor 76% gewijzigd door RobIII op 21-05-2025 20:24 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Acties:
  • 0 Henk 'm!

  • tjanssen
  • Registratie: Augustus 2012
  • Niet online
ChatGPT heb ik uiteraard geprobeerd. Heb ChatGPT zelfs het plaatje gevoerd, en die zegt eigenlijk dat de settings met m'n plaatje zouden moeten werken. Ik heb verschillende varianten van de de plaatjes geprobeerd:

Afbeeldingslocatie: https://tweakers.net/i/tdmXeXE1d3fdQuQYfM1sLluRlBE=/800x/filters:strip_icc():strip_exif()/f/image/t5y6ekyYk7YhfaCfPgFbzVCu.jpg?f=fotoalbum_large

Afbeeldingslocatie: https://tweakers.net/i/MlUcSn5bw14jDJPRCPGitVd8xMg=/800x/filters:strip_icc():strip_exif()/f/image/IuBH49gEwnn00CQuqhPsTAkV.jpg?f=fotoalbum_large

Maakt allenaal niets uit. Laatste plaatje is het orignele. De tekstkleur aanpassen zou kunnen, maar dit gaat natuurlijk alleen helpen op toekomstige plaatjes.

Acties:
  • 0 Henk 'm!

  • dixet
  • Registratie: Februari 2010
  • Laatst online: 20:42
Dit ziet er uit als een timestamp van de datum/tijd waarop het plaatje is gemaakt. Bevat de afbeelding geen EXIF-metadata die je kan extraheren met bijvoorbeeld exiftool?

Dat werkt vast betrouwbaarder dan OCR

Acties:
  • 0 Henk 'm!

  • tjanssen
  • Registratie: Augustus 2012
  • Niet online
@dixet helaas bevat de JPG geen EXIF data.

Acties:
  • 0 Henk 'm!

  • vanaalten
  • Registratie: September 2002
  • Nu online
Ik weet niet of het onder Linux makkelijk mogelijk is (vast wel, maar weet niet hoe), maar stel dat je script-based de image kan editten:
Stap 1: alle pixels met kleur die niet *exact* gelijk is aan de timestamp text maak je zwart.
Stap 2: alle pixels met kleur die gelijk is aan de timestamp text maak je wit

Resultaat is dan iets met enkel de timestamp en niets anders (op hooguit een incidenteel storing-pixel), maar veel makkelijk kan je het voor OCR niet maken, denk ik.
Pagina: 1