Nederlandse onderzoekers voeren patiëntendata aan ChatGPT?

Pagina: 1
Acties:

Vraag


  • Sir.Bacon
  • Registratie: Juni 2013
  • Laatst online: 28-04 12:14
Beste medetweakers,

Ik stuitte op een recent artikel waarin Nederlandse onderzoekers patiëntendata aan ChatGPT hebben gevoerd: https://agsjournals.onlin...com/doi/10.1111/jgs.70415

Het gaat om een onderzoek waarbij de medicatiebeoordelingen van menselijke artsen zijn vergeleken met die van ChatGPT. Ik laat de namen van de auteurs en het specifieke ziekenhuis hier bewust buiten beschouwing; het gaat mij puur om de privacy-implicaties.

In het artikel valt o.a. het volgende te lezen:
A dedicated chatbot, named AI-pharmacist, was created using the custom GPT functionality of ChatGPT (OpenAI, GPT-4-Turbo model; paid “Plus” version, 2024).
...
For every new patient, a new chat was started, following an identical interaction structure with a standardized prompt containing patient's anonymized data. All chats were conducted on two consecutive days to ensure that ChatGPT (GPT-4-Turbo, paid “Plus” version, accessed April 4–5, 2024) and its defaults generation settings were not updated or altered in between sessions.
...
ChatGPT was given the exact same primary anonymized data of the patient that the HCPs initially used: demographics, health goals, and DRPs collected from the patient interview, reason of hospital admission, medical history, medication list, vitality, and laboratory results (if available). In addition, information could be present about life expectancy, frailty status, whether the patient lived alone or received home care, and marital status. All prompts and corresponding AI-generated outputs were exported and stored as text files on a secure institutional server, each labeled with a unique study identifier and timestamp to ensure consistency and auditability across all cases.
...
The study used data from a previously approved study (registration number WO 17.040), for which all patients had provided written informed consent. [NB: Het gaat hier om 51 kwetsbare oudere patiënten (65+) die inderdaad bij eerder onderzoek ook toestemming hadden gegeven voor het gebruik van hun gegevens in uiteenlopend vervolgonderzoek. Deze deelnemers waren echter geworven in 2017-2018, toen ChatGPT nog niet bestond.]
Als ik dit lees zie ik drie enorme rode vlaggen:
1. ChatGPT "Plus" en Amerikaanse servers
Er staat expliciet dat de "paid 'Plus' version" is gebruikt met de "defaults generation settings". Voor zover ik weet, is volledig geïsoleerde dataverwerking voorbehouden aan Enterprise-achtige licenties, toch?

2. Informed Consent
De deelnemers kunnen in 2017/2018 onmogelijk gerichte toestemming hebben gegeven voor het gebruik van hun data op deze manier (invoeren in een commerciële, cloud-gebaseerde LLM van een Amerikaanse techreus).

3. Anonimisering vs. Pseudonimisering
De onderzoekers spreken over de data die aan de LLM is gevoerd als zijnde anonymized. Maar een combinatie van exacte opnameredenen, een specifieke medicatielijst, labwaarden, leeftijd/demografie en de thuissituatie is in de praktijk toch een unieke 'klinische vingerafdruk'? Zelfs als je de naam en het BSN weghaalt, is dit volgens de definitie van de AVG toch overduidelijk gepseudonimiseerde data (en dus nog steeds bijzondere persoonsgegevens)?

Mijn vragen aan de privacy- en IT-experts hier:
  1. Mis ik hier iets technisch of juridisch? Is het bijvoorbeeld aannemelijk dat men "Plus" schrijft, maar eigenlijk een beveiligde Enterprise-omgeving bedoelt?
  2. Datalek: Als ik het goed interpreteer en bijzondere persoonsgegevens zonder DPA naar een Amerikaans techbedrijf zijn gestuurd, spreken we dan formeel van een datalek? Dit onafhankelijk van de vraag of de data uiteindelijk daadwerkelijk in de trainingsdata van OpenAI belandt.

Alle reacties


  • gambieter
  • Registratie: Oktober 2006
  • Niet online

gambieter

Just me & my cat

Als onderzoeker die veel met secundaire data werkt, kriebelt het behoorlijk. De ethische commissie lijkt zich er hier erg gemakzuchtig vanaf te hebben gemaakt, ik zou hier flink wat tegengas hebben gegeven. Ik vind dit geen informed consent.

Uberhaupt zou een dergelijke "umbrella consent" niet eens meer mogen, dat was ons al duidelijk gemaakt toen ik 20 jaar terug op een UMC werkte.

En ik mag toch hopen dat ze geen openbare chatGPT hebben gebruikt, dan mogen de onderzoekers wmb in een kanon worden geladen. Dat zou heel onverantwoordelijk zijn.

I had a decent lunch, and I'm feeling quite amiable. That's why you're still alive.


  • Sir.Bacon
  • Registratie: Juni 2013
  • Laatst online: 28-04 12:14
Bedankt voor je reactie. Ik werk zelf als onderzoeker bij een ander niet-gerelateerd ziekenhuis en ik krijg hier ook de kriebels van.

In het artikel staat nergens expliciet beschreven dat de data binnenshuis is gebleven. Ik kan me niet voorstellen dat de onderzoekers dit onvermeld zouden laten als dat wel het geval was.

Wel staat er dit zinnetje:
All prompts and corresponding AI-generated outputs were exported and stored as text files on a secure institutional server, each labeled with a unique study identifier and timestamp to ensure consistency and auditability across all cases.
Het gebruik van het woordje "exported" suggereert juist dat de output van ChatGPT echt van een andere server afkomstig is.

  • bw_van_manen
  • Registratie: April 2014
  • Laatst online: 07-05 10:00
Als het onmogelijk is dat de ontvanger de gegevens aan een individu kan koppelen dan zijn het voor de ontvanger anonieme gegevens. Dan mag je de gegevens wel delen. Aangezien je er wel vanuit kan gaan dat ChatGPT niet de nodige informatie heeft om op basis van die 'klinische vingerafdruk' een persoon te identificeren lijkt dat hier wel van toepassing.

Het opmerkelijke is dat de uitspraak die hieraan ten grondslag ligt pas in 2025 door de rechter bevestigd is. Ten tijde van dit onderzoek was die uitspraak er nog niet en was dit dus wel een dubieuze praktijk.

  • Sir.Bacon
  • Registratie: Juni 2013
  • Laatst online: 28-04 12:14
bw_van_manen schreef op vrijdag 24 april 2026 @ 09:03:
Als het onmogelijk is dat de ontvanger de gegevens aan een individu kan koppelen dan zijn het voor de ontvanger anonieme gegevens.
Dat is inderdaad de theorie van 'relatieve anonimiteit', maar het is zeer de vraag of dat hier opgaat. We spreken hier namelijk over gepseudonimiseerde gegevens.

De onderzoekers hebben een enorme waslijst aan variabelen ingevoerd (exacte reden van opname, specifieke medicatielijsten, labwaarden, leeftijdscategorie, thuissituatie en burgerlijke staat). In de datawetenschap is zo'n combinatie vrijwel altijd een unieke 'klinische vingerafdruk'. Gezien OpenAI de chatgeschiedenis van Plus-accounts standaard mag gebruiken voor modeltraining, wordt deze data gecombineerd met hun gigantische dataset van het open internet (denk aan lokaal nieuws over ongelukken of ziekenhuisopnames, overlijdensberichten, of posts op social media). Het is voor een partij als OpenAI dus zeker niet "onmogelijk" om via singling out een individu te herleiden. Daarmee blijft het ook voor de ontvanger gepseudonimiseerde data.

[ Voor 17% gewijzigd door Sir.Bacon op 24-04-2026 09:30 ]


  • Mania-92
  • Registratie: Maart 2006
  • Laatst online: 19:58
Heb je de DPO van het betreffende ziekenhuis al op de hoogte gesteld? Ik zou eens kijken wat die te zeggen heeft.

  • Sir.Bacon
  • Registratie: Juni 2013
  • Laatst online: 28-04 12:14
Mania-92 schreef op vrijdag 24 april 2026 @ 14:13:
Heb je de DPO van het betreffende ziekenhuis al op de hoogte gesteld? Ik zou eens kijken wat die te zeggen heeft.
Het benaderen van de desbetreffende DPO is inderdaad een logische eerste stap. Ik heb echter niets te winnen in deze zaak. Hoewel ik er niet aan twijfel dat de DPO integer is, blijft voor mij altijd het persoonlijke risico bestaan dat mijn naam gaat rondzingen. Dit lijkt me meer een taak voor de journalistiek. Ik heb wel een melding gedaan bij de Autoriteit Persoonsgegevens.

  • Mania-92
  • Registratie: Maart 2006
  • Laatst online: 19:58
Sir.Bacon schreef op vrijdag 24 april 2026 @ 18:29:
[...]

Het benaderen van de desbetreffende DPO is inderdaad een logische eerste stap. Ik heb echter niets te winnen in deze zaak. Hoewel ik er niet aan twijfel dat de DPO integer is, blijft voor mij altijd het persoonlijke risico bestaan dat mijn naam gaat rondzingen. Dit lijkt me meer een taak voor de journalistiek. Ik heb wel een melding gedaan bij de Autoriteit Persoonsgegevens.
Daar kan ik inkomen. Maar e-mailen kan toch ook prima anoniem?

  • gambieter
  • Registratie: Oktober 2006
  • Niet online

gambieter

Just me & my cat

Ik zal hem eens op Bluesky posten, kijken wat men er daar van denkt.

I had a decent lunch, and I'm feeling quite amiable. That's why you're still alive.


  • Gromborg
  • Registratie: Mei 2007
  • Laatst online: 20:18
Interessant zeg! Ik ga het in ons ziekenhuis in elk geval meteen navragen hoe wij hier mee om zouden gaan. Een server buiten de EU zou toch sowieso een no go moeten zijn voor dit soort research? Een lokaal LLM kan dit inmiddels vast ook wel want zo ingewikkeld is het onderzoek uit het artikel niet.

(Ik heb de tekst van het artikel voorgelegd aan Mistral ai en die komt tot dezelfde conclusie als sommige bovenstaande reacties. ChatGPT zegt: er blijft een juridisch en technisch risico door dataoverdracht naar de VS.)
Pagina: 1