Vision-taalmodellen begrijpen 'geen' niet,…

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

  • tmensink
  • Registratie: Oktober 2005
  • Laatst online: 14-09 10:56
Oprechte vraag, misschien wat onhandig gesteld. Bijvoorbaat sorry daarvoor...

Er komen elke maand tientallen, zo niet honderden artikelen uit, zeker op ArXiV. Sommige met hele mooie resultaten, andere die een klein bouwsteentje bijdragen aan het begrijpen van computer visie systemen. Ik vraag me af hoe uit al deze papers, nou specifiek dit paper is gekomen om op de voorpagina te bespreken?

Het is een goed paper - wat ik er op het eerste oog van kan zien. Want het laat een fundamentele fout in VLMs zien: namelijk negatie is moeilijke te begrijpen. Iets wat niet heel verrassend is, maar zover ik weet ook nooit systematisch onderzocht. Dus goed werk van de onderzoekers.

Wat ik opmerkelijk vind:
1) Het paper is niet alleen van MIT, maar ook van OpenAI en Oxford (UK).
2) AI in medische toepassingen: de belofte is er al jaren, maar de praktijk blijft weerbarstig
3) Laat staan VLMs / foundational models.
4) De conclusies van het paper zijn veel generieken dan in het nieuwsbericht wordt beschreven.
5) Het paper is nog niet geaccepteerd door een conferentie of journal. Het is dus nog niet ge-peer-reviewed (wat de waarde daar ook precies van is, dat is een andere discussie).

Dus: waarom specifiek dit artikel? En waarom zo'n specifieke conclusie terwijl de auteurs het behoorlijk breed houden.
Leuke vervolg vraag zou kunnen zijn: hebben taalmodellen (zoals ChatGPT / Gemini / Clause) ook moeite met negatie?
Andere leuke vervolg vraag: komen jullie naar CVPR een van de grootste wetenschappelijke conferenties op het gebied van Computer Vision en Machine Learning?

Disclosure: Ik ben onderzoeker in AI en richt me (al jaren lang) op Visual Understanding, inclusief VQA, sinds kort ook op generatieve modellen. Ik werk sinds 2019 voor Google (DeepMind). Ik ben niet betrokken bij dit onderzoek en ook niet persoonlijk bekend met een van de onderzoekers.

Fijne avond!

[ Voor 9% gewijzigd door tmensink op 19-05-2025 21:23 . Reden: peer review toegevoegd ]