Toon posts:

Zoektocht naar een image processing tool

Pagina: 1

Acties:

901 views
Reageer

Vraag

vrijdag 13 februari 2026 07:47

Acties:

Croga

The Unreasonable Man

Topicstarter

Management samenvatting: Ik zoek een tool om specifieke informatie uit plaatjes te halen. De tool moet lokaal kunnen draaien, ik heb er geen moeite mee als het een AI tool is (mijn RTX4070 heeft daar ook niet zo'n moeite mee ;-))

Even voor de achtergrond;
Ik werk als Data Engineer. Mijn dagelijks werk bestaat grotendeels uit het bouwen van extraction tools in Python en transformation in SQL. De laatste tijd speelt Copilot daar steeds een grotere rol in. De AI discussie is niet zo heel zinnig hier; ik weet waar het op dit moment waarde voor mij toevoegd.

Om eens te kijken hoe AI meer waarde voor mij zou kunnen toevoegen ben ik als hobby project gaan "vibe coden"; doel om zelf geen letter code te schrijven maar alles door Copilot te laten doen.
Mijn hobby is Star Fleet Battles. Een bordspel gebasseerd op de originele Star Trek TV serie. Men vliegt met scheepjes over het bord en schiet elkaar aan gort (pun intended).

Copilot heeft een leuk tooltje voor me gebouwd waarmee ik aan kan geven waar de scheepjes zijn op het bord en die dan uitrekend hoeveel schade ze aan elkaar kunnen doen, op basis van een definitie van welke wapens van elk schip welke kant op kunnen schieten. Dit laatste trekt het tooltje uit een JSON file die een tekstuele beschrijving geeft van het zogenaamde SSD. Ieder uniek schip heeft een unieke SSD. Deze SSD is een grafische weergave.

En nu komt het probleem: Ik heb honderden van deze SSDs. Daar moeten dus honderden bijbehorende JSON files uit komen. Ik heb Copilot één SSD laten bekijken en zijn herkenning van de wapens was op zijn hoogst fragiel te noemen. Massa-analyse kan Copilot zowieso niet. Hij is simpelweg niet in staat om plaatjes te processen. Welke tool zouden jullie hier voor aanraden?

Snippet van een SSD:
Afbeeldingslocatie: https://tweakers.net/i/-3MYSUTeaXOvg7p5kn6HxNZRkQE=/fit-in/4000x4000/filters:no_upscale():strip_exif()/f/image/NHDEKDD2rJD89iwJxsnWhPTo.png?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/-3MYSUTeaXOvg7p5kn6HxNZRkQE=/fit-in/4000x4000/filters:no_upscale():strip_exif()/f/image/NHDEKDD2rJD89iwJxsnWhPTo.png?f=user_large

Hier zou dus uit moeten komen:
4 Photon FA
2 PH-1 FH
2 PH-1 RS

Relevante software en hardware die ik gebruik
Windows 11
VSCode met Copilot maar ik sta open voor alles

Wat ik al gevonden of geprobeerd heb
Als ik op het Internet rond zoek vindt ik heel veel tools die plaatjes kunnen genereren of plaatjes kunnen taggen met grove beschrijvingen. Ik heb nog niets gevonden wat plaatjes kan processen zoals hierboven beschreven.
Advies hoe ik kan zoeken is absoluut welkom; het kan zijn dat wat ik wil gewoon een naam heeft. Oh ja, OCR tools kunnen hier ook niet mee overweg.

Alle reacties

zaterdag 14 februari 2026 21:19

Acties:

Croga

The Unreasonable Man

Topicstarter

Echt niemand die hier ervaring mee heeft?

zondag 15 februari 2026 10:25

Acties:

thunder7

houten vaas/schaal nodig?

begrijp ik correct dat dit de uitkomst is omdat er cijfers op een roze achtergrond op die posities staan? Heeft een plaatje zounder Photon FA, PH-1 FH, PH2 RS daar andere kleuren? En waarom hebben CD dan niet een egaal roze achtergrond?

En hebben al die plaatjes de posities op identieke pixels?

Als je het hebt over software die de achtergrondkleur op bepaalde posities kan uitvoeren en zo gebruikt kan worden in scripts, denk ik aan imagemagick.Daar is vast ook wel een windows-versie van.

hout-nerd - www.hetmooistehout.nl of www.houtenschalen.nl

zondag 15 februari 2026 10:39

Acties:

Onbekend

...

Mijn ervaring is dat tekstherkenning in afbeeldingen nog steeds niet betrouwbaar genoeg is om dat automatisch te gaan verwerken. Zowel met OCR tekstherkenning als met AI tools.
Text-only is wel te doen, maar zodra er lijnen en andere niet tekstgerelateerde items in komen gaat er nog veel te veel mis.

Als het voor jou te doen is, zou je de afbeeldingen kunnen bewerken zodat ze alleen nog maar tekst bevatten voordat je ze aan je AI tool aanbiedt.

Speel ook Balls Connect en Repeat

zondag 15 februari 2026 11:16

Acties:

Croga

The Unreasonable Man

Topicstarter

thunder7 schreef op zondag 15 februari 2026 @ 10:25:
begrijp ik correct dat dit de uitkomst is omdat er cijfers op een roze achtergrond op die posities staan? Heeft een plaatje zounder Photon FA, PH-1 FH, PH2 RS daar andere kleuren? En waarom hebben CD dan niet een egaal roze achtergrond?

En hebben al die plaatjes de posities op identieke pixels?

Excuses, ik had duidelijker kunnen zijn.
Achtergrond kleur doet niets. Het gaat echt over specifieke steekwoorden en het aantal boxes daar bij. Posities zijn nooit identiek en kleuren zijn niet van belang (behalve voor de volgende stap waar sommige wapens soms veranderen maar dat is voor een volgende iteratie vér in de toekomst)

Onbekend schreef op zondag 15 februari 2026 @ 10:39:
Als het voor jou te doen is, zou je de afbeeldingen kunnen bewerken zodat ze alleen nog maar tekst bevatten voordat je ze aan je AI tool aanbiedt.

Not really..... Zoals gezegd; de boxes zijn van belang en alles behalve dat weghalen is meer werk dan de JSON gewoon met de hand aan maken.

Bedankt voor het meedenken allebei!

[ Voor 3% gewijzigd door Croga op 15-02-2026 11:17 ]

woensdag 18 februari 2026 05:13

Acties:

Drgn

In het verleden (10+ jaar) heb ik Fiji/imagj voor dit soort problemen gebruikt.

Op het eerste gezicht lijkt dit legacy software, maar het is super krachtig, programmeerbaar, uitbreidbaar. In jouw geval wil je segmenten en "regions of interest" (roi) identificeren waarmee je dan weer dingen gaat doen. Uiteindelijk bouw je een macro of plugin die de hele beeldanalyse kan doen. Ik denk dat dit de software een heel eind kan wat je wilt, maar of het bij jouw scenario past..

Leave the gun, get the canoli

woensdag 18 februari 2026 06:28

Acties:

Croga

The Unreasonable Man

Topicstarter

Drgn schreef op woensdag 18 februari 2026 @ 05:13:
In het verleden (10+ jaar) heb ik Fiji/imagj voor dit soort problemen gebruikt.

Op het eerste gezicht lijkt dit legacy software, maar het is super krachtig, programmeerbaar, uitbreidbaar. In jouw geval wil je segmenten en "regions of interest" (roi) identificeren waarmee je dan weer dingen gaat doen. Uiteindelijk bouw je een macro of plugin die de hele beeldanalyse kan doen. Ik denk dat dit de software een heel eind kan wat je wilt, maar of het bij jouw scenario past..

Ik ga hem downloaden en er eens mee spelen.

Ik verwacht dat de grootste uitdaging is dat mijn gebruik non-deterministisch is. Er is niet echt een template te definieren voor wat ik uit het plaatje wil halen behalve "Vindt een groep hokjes, vindt de tekst die daar bij staat. Als die tekst voor komt in een lijstje dan heb je hem gevonden" of zo.

zaterdag 28 februari 2026 10:58

Acties:

TobyW

Mijn aanpak zou een tweetrapsraket (no pun intended) zijn, eerst een beeldsegmentatie uitvoeren met een YOLO model en daarna tekstherkenning met Tesseract. YOLO levert tegenwoordig ook met kleine trainingsdatasets goede resultaten en is eenvoudig via pip te installeren.

zaterdag 28 februari 2026 11:58

Acties:

Voutloos

Moet toch wel doable zijn. Je zou nog als eerste stap met contrast kunnen spelen en alle laffe kleurtjes door wit laten vervangen, aangezien je alleen maar de zwarte tekst en vierkanten interessant vind.
Wel is de plaatsing van ‘RS’ in dit voorbeeld al wat inconsistent. Als er vaker dergelijke vrijheden genomen worden, misschien zelfs het label onder de vierkanten, wordt t al wat lastiger.

{signature}

zaterdag 28 februari 2026 12:00

Acties:

Voutloos

En heel stom pragmatisch: Als deze cirkel de hele ssd is, is enkel de woorden herkennen en dan met handje aanvullen secondewerk. Niet sexy, maar gewoon ff rammen kom je een heel eind.

{signature}

zaterdag 28 februari 2026 12:03

Acties:

Croga

The Unreasonable Man

Topicstarter

Voutloos schreef op zaterdag 28 februari 2026 @ 12:00:
En heel stom pragmatisch: Als deze cirkel de hele ssd is, is enkel de woorden herkennen en dan met handje aanvullen secondewerk. Niet sexy, maar gewoon ff rammen kom je een heel eind.

Dat is het helaas niet :-D
Dit is een deel van de "saucer" van een enterprise-A achtig schip. Dit schip alleen heeft 4 photons, 8 Ph-1, 2 Ph-3 en 2 drone racks. Zo zijn er zo'n 1000+ schepen te gaan. Da's wel heel lang rammen :-D

woensdag 11 maart 2026 10:18

Acties:

Ulic

Croga schreef op woensdag 18 februari 2026 @ 06:28:
[...]

Ik ga hem downloaden en er eens mee spelen.

Ik verwacht dat de grootste uitdaging is dat mijn gebruik non-deterministisch is. Er is niet echt een template te definieren voor wat ik uit het plaatje wil halen behalve "Vindt een groep hokjes, vindt de tekst die daar bij staat. Als die tekst voor komt in een lijstje dan heb je hem gevonden" of zo.

Ik denk dat hier voornamelijk de crux van je probleem zit. Als je zelf al niet duidelijk kunt formuleren wat de criteria zijn wat voor informatie je uit een afbeelding wilt halen, dan kun je dat natuurlijk ook nooit aan een AI of wat voor andere tool dan ook uitleggen.

Dus volgens mij zou je hier andersom moeten beginnen. Niet zoeken naar een bepaalde tool of zo die dit kan, maar eerst zorgen dat je duidelijke criteria definieert wat voor data in een plaatje relevant is. Dan kun je daarna kijken wat voor tool daarbij zou kunnen helpen om die criteria uit te voeren.

woensdag 11 maart 2026 10:22

Acties:

naitsoezn

Nait Soez'n!

pytorch heeft wel toolboxes om te doen wat je wilt in Python (aangezien je daar evaring mee hebt). Of je die uiteindelijk via vibe-coding in elkaar kunt hacken weet ik niet, maar pytorch is wel een heel bekend en veel gebruikt dus waarschijnlijk zal die wel bekend zijn bij de meeste LLM's.

[ Voor 40% gewijzigd door naitsoezn op 11-03-2026 10:27 ]

't Het nog nooit, nog nooit zo donker west, of 't wer altied wel weer licht

woensdag 11 maart 2026 10:23

Acties:

Croga

The Unreasonable Man

Topicstarter

Ulic schreef op woensdag 11 maart 2026 @ 10:18:
Ik denk dat hier voornamelijk de crux van je probleem zit. Als je zelf al niet duidelijk kunt formuleren wat de criteria zijn wat voor informatie je uit een afbeelding wilt halen, dan kun je dat natuurlijk ook nooit aan een AI of wat voor andere tool dan ook uitleggen.

Hier ben ik het niet mee eens.
Als het mogelijk zou zijn een exacte definitie te geven zou ik geen AI nodig hebben. Dan kan ik met RPA vooruit. Maar dat is het niet.

Machine Learning is juist heel goed in een vage opdracht, en vervolgens door te leren op voorbeelden de juiste parameters ontdekken. Dat is wat hier nodig is aangezien er geen deterministische processing mogelijk is.

Ik kan het best in mensentaal uitleggen maar dat betekend niet dat het in pixels uit te leggen is. In mensentaal is het simpelweg alle groepen van vierkante blokjes pakken en de teksten die daar omheen staan, zoals al gezegd. En voor een taalmodel zou dat meer dan genoeg moeten zijn.

woensdag 11 maart 2026 11:25

Acties:

Ulic

Croga schreef op woensdag 11 maart 2026 @ 10:23:
[...]

Hier ben ik het niet mee eens.
Als het mogelijk zou zijn een exacte definitie te geven zou ik geen AI nodig hebben. Dan kan ik met RPA vooruit. Maar dat is het niet.

Machine Learning is juist heel goed in een vage opdracht, en vervolgens door te leren op voorbeelden de juiste parameters ontdekken. Dat is wat hier nodig is aangezien er geen deterministische processing mogelijk is.

Ik kan het best in mensentaal uitleggen maar dat betekend niet dat het in pixels uit te leggen is. In mensentaal is het simpelweg alle groepen van vierkante blokjes pakken en de teksten die daar omheen staan, zoals al gezegd. En voor een taalmodel zou dat meer dan genoeg moeten zijn.

Daar heb je zeker een punt dat machine learning goed is in zelf te leren wat de juiste manier is om data te verwerken. Alleen wel met 1 grote kanttekening: dat werkt dus alleen als je die machine eerst kunt voeden met een grote dataset waar die van kan leren. Dus dan zou je een grote set van afbeeldingen moeten hebben waarvan de bijbehorende uitkomst die je wilt hebben ook bekend is. Als je machine daarmee gevoed is dan zou die voor nieuwe afbeeldingen zelf aan de gang moeten kunnen. Maar verwachten dat een machine zelf die patronen gaat herkennen zonder dat die vooraf heeft kunnen leren dat gaat helaas niet werken.

woensdag 11 maart 2026 11:40

Acties:

nalletje

Wellicht is het een idee om te proberen met "Vibe coding" een tool te ontwikkelen gebaseerd op OCR om de afbeeldingen uit te lezen?

https://github.com/tesseract-ocr/tesseract

Edit: Never mind --- las net je laatste zin! :-)

[ Voor 12% gewijzigd door nalletje op 11-03-2026 11:42 ]

woensdag 11 maart 2026 11:43

Acties:

Croga

The Unreasonable Man

Topicstarter

nalletje schreef op woensdag 11 maart 2026 @ 11:40:
Wellicht is het een idee om te proberen met "Vibe coding" een tool te ontwikkelen gebaseerd op OCR om de afbeeldingen uit te lezen?

https://github.com/tesseract-ocr/tesseract

Ik heb al eens eerder met Tesseract gespeeld. De uitdaging is dat OCR niet genoeg is; het zou OCR kunnen zijn in combinatie met coordinaten data en beeldherkenning maar tesseract geeft slechts pure tekst terug, niet waar op het plaatje die tekst gevonden werd.

woensdag 11 maart 2026 11:48

Acties:

nalletje

Croga schreef op woensdag 11 maart 2026 @ 11:43:
[...]

Ik heb al eens eerder met Tesseract gespeeld. De uitdaging is dat OCR niet genoeg is; het zou OCR kunnen zijn in combinatie met coordinaten data en beeldherkenning maar tesseract geeft slechts pure tekst terug, niet waar op het plaatje die tekst gevonden werd.

https://github.com/jaidedai/easyocr
Volgens mij krijg je hier wel het e.e.a. terug.

woensdag 11 maart 2026 11:49

Acties:

Croga

The Unreasonable Man

Topicstarter

nalletje schreef op woensdag 11 maart 2026 @ 11:48:
https://github.com/jaidedai/easyocr
Volgens mij krijg je hier wel het e.e.a. terug.

Oooh! Thanks! Dat ziet er inderdaad wel interessant uit! Ik ga eens kijken of ik hier wat mee kan.

Pagina: 1

Reageer