Naar aanleiding van de rechtszaak omtrent SyRI. Er is veel om te doen in de media, maar wat is het nu eigenlijk en waarom is er zoveel ophef over?
Op basis van het artikel van Tijs wilde ik toch wat verder in de materie duiken om uit te zoeken waar nu de schoen wringt bij dit soort trajecten.
Bronnen:
Niet één dataset
Uit deze procedure kun je afleiden dat voor elk onderzoek een unieke dataset gemaakt wordt en er niet één grote dataset is waarop geanalyseerd wordt. Daarnaast zijn alle gegevens, zolang ze in SyRI zitten, anoniem. Dat is een voordeel, want er is niet één grote bak data waarin alle instanties naar behoeve kunnen lopen grutten.
Dat kan ook een nadeel zijn, want er zijn 160 projecten gedraaid (pagina 106). Vraag: Zijn voor alle 160 projecten binnen 4 weken de bestanden verwijderd? Vraag: Hoeveel van de risicosignaleringen die gedaan zijn staan er nog open?
SyRI of toch mensenwerk?
Zoals het proces is ingestoken lijkt het me onwaarschijnlijk dat binnen het systeem SyRI zelf een privacy probleem ontstaat. Het grootste risico hierop treedt in stap 1 en 8 op.
In stap 1 wordt het risicomodel bepaald:
Vraag: Mag een onderzoeksteam herhaaldelijk op basis van dezelfde specifieke indicatoren (zoals: een wijk) onderzoek doen naar dezelfde soort fraude.
Hier ontstaat voor de overheid een ethisch dilemma: Je wilt discrimineren, omdat je anders nooit je fraudeurs vindt. Maar je mag volgens de wet als het gaat om personen niet discrimineren. Het is volgens mij erg moeilijk om hier een goed beleid voor op te stellen.
Misschien zou je de bewijslast om moeten draaien (om het doel de middelen te laten heiligen): Zolang een risicomodel een goed percentage 'hits' / 'fraudeurs' oplevert (bijv. 80% van de hits moet fraudeur blijken) dan is je risicomodel goed en mag je er mee doorwerken.
Dit is een risico op zich want er kunnen foute statistieken uit voortkomen en ook stereotypen. Conclusies zoals: "Alle fraudeurs zijn allochtoon" kan je dan trekken, puur omdat je je indicatoren zo gekozen hebt dat ze allochtonen benaderen. Pijnlijk.
Als het systeem echt zo goed is als dat ze zeggen dat het is, stop er maar een hele stad in (of heel NL) en kijk wat er dan uit komt!
Waarschijnlijk lukt dat dus niet, omdat je dan statistisch gezien in de knoop komt met je indicatoren. Je krijgt veel valse positieven omdat de bandbreedte te groot is. Kortom je moet dus wel discrimineren. Vraag: Hoe discrimineer je op een dataset met personen zonder te discrimineren maar waar je toch de gewenste resultaten uit kan halen? Kan dat überhaupt wel?
In stap 8 wordt de analyse gedaan.
De uitwerking van deze stap staat nergens beschreven. Dit laat veel onbekend over wat er met de niet-gepseudonimiseerde data (de persoonsgegevens van de personen met verhoogd risico) gedaan wordt.
Vraag: Hoe vindt die analyse plaats? Hoe worden die gegevens gebruikt? Door wie kunnen ze worden ingezien?
Tijs zei in één van zijn reacties bij het artikel dat er ook persoonsgegevens van buren opgevraagd werden. Vraag: Is dat zo? Uit welke bron komt dat? Heeft iemand een bron?
Als de bewering van Tijs waar is, dan is dat een inbreuk op de privacy, want de overheid mag bij opsporing niet zonder goede reden (je moet verdacht zijn) je persoonsgegevens opvragen. En de buurman zijn van een potentiële fraudeur valt niet onder 'verdacht zijn'. Dat mag dus niet. Maar ook hier geldt: Dit valt buiten het systeem SyRI, want dat is het werk van het opsporingsteam.
Daarnaast: Waarom wordt er zo geheim gedaan over de algoritmes van SyRI? Zijn die algoritmes wel zo state-of-the-art, of is het gewoon een data-expert die een aantal bestanden op een slimme manier aan elkaar koppelt en de resultaten terugkoppelt (daar lijkt het imo wel op)?
Mocht je mee willen discussiëren, helpen bovenstaande vragen te beantwoorden of heb je vragen die je graag wilt stellen of heb je nieuwe interessante bronnen, gooi het hieronder neer.
Op basis van het artikel van Tijs wilde ik toch wat verder in de materie duiken om uit te zoeken waar nu de schoen wringt bij dit soort trajecten.
Bronnen:
- PDF met uitleg over het gebruik van SyRI in opsporingsprocessen
- Wettelijke basis om gegevens te verstrekken voor onderzoeken waarin SyRI gebruikt wordt.
- Risicomodel met Indicatoren worden opgesteld door de opspoorders
- Onderzoek wordt goedgekeurd door Minister SZW
- Gegevens worden opgevraagd bij de betreffende instanties
- Gegevens worden gepseudonimiseerd
- (Er ontstaan twee bestanden: een versleuteld bestand met de gegevens en een bestand met de werkelijke gegevens zodat e.e.a. ontsleuteld kan worden mocht dat nodig zijn)
- Vergelijking (en signalering) vindt plaats in SyRI met het versleutelde bestand
- Alleen gegevens die duiden op een verhoogd risico worden ontsleuteld en doorgegeven aan analysten.
- Binnen vier weken worden de geleverde bestanden en de bewerkte bestanden, inclusief de ‘no-hits’, vernietigd.
- De analisten bepalen of de personen met verhoogd risico een risicomelding* moet worden gegeven
- Risicomeldingen worden opgenomen in een register
- Risicomeldingen worden verwijderd maximaal 2 jaar na het onderzoek of opgenomen in een register
Niet één dataset
Uit deze procedure kun je afleiden dat voor elk onderzoek een unieke dataset gemaakt wordt en er niet één grote dataset is waarop geanalyseerd wordt. Daarnaast zijn alle gegevens, zolang ze in SyRI zitten, anoniem. Dat is een voordeel, want er is niet één grote bak data waarin alle instanties naar behoeve kunnen lopen grutten.
Dat kan ook een nadeel zijn, want er zijn 160 projecten gedraaid (pagina 106). Vraag: Zijn voor alle 160 projecten binnen 4 weken de bestanden verwijderd? Vraag: Hoeveel van de risicosignaleringen die gedaan zijn staan er nog open?
SyRI of toch mensenwerk?
Zoals het proces is ingestoken lijkt het me onwaarschijnlijk dat binnen het systeem SyRI zelf een privacy probleem ontstaat. Het grootste risico hierop treedt in stap 1 en 8 op.
In stap 1 wordt het risicomodel bepaald:
Het lijkt erop (als iemand dat kan bevestigen met bron, graag) dat hier door de opspoorders telkens een specifieke doelgroep gekozen wordt (in de pers wordt vaak die op basis van geografie genoemd: een wijk). Dit heeft niks met het systeem SyRI zelf te maken, maar wel met het proces dat er omheen hangt. Mensenwerk dus.Het risicomodel is een model dat bestaat uit vooraf bepaalde indicatoren die duiden op een verhoogd risico van fraude en misbruik. Bij het ontwerp van het risicomodel beschrijft de Inspectie szw voor welke specifieke fraudevorm het instrument Syri wordt ingezet en onderbouwt gemotiveerd welke gegevens daartoe bij
elkaar worden gebracht.
Vraag: Mag een onderzoeksteam herhaaldelijk op basis van dezelfde specifieke indicatoren (zoals: een wijk) onderzoek doen naar dezelfde soort fraude.
Hier ontstaat voor de overheid een ethisch dilemma: Je wilt discrimineren, omdat je anders nooit je fraudeurs vindt. Maar je mag volgens de wet als het gaat om personen niet discrimineren. Het is volgens mij erg moeilijk om hier een goed beleid voor op te stellen.
Misschien zou je de bewijslast om moeten draaien (om het doel de middelen te laten heiligen): Zolang een risicomodel een goed percentage 'hits' / 'fraudeurs' oplevert (bijv. 80% van de hits moet fraudeur blijken) dan is je risicomodel goed en mag je er mee doorwerken.
Dit is een risico op zich want er kunnen foute statistieken uit voortkomen en ook stereotypen. Conclusies zoals: "Alle fraudeurs zijn allochtoon" kan je dan trekken, puur omdat je je indicatoren zo gekozen hebt dat ze allochtonen benaderen. Pijnlijk.
Als het systeem echt zo goed is als dat ze zeggen dat het is, stop er maar een hele stad in (of heel NL) en kijk wat er dan uit komt!
Waarschijnlijk lukt dat dus niet, omdat je dan statistisch gezien in de knoop komt met je indicatoren. Je krijgt veel valse positieven omdat de bandbreedte te groot is. Kortom je moet dus wel discrimineren. Vraag: Hoe discrimineer je op een dataset met personen zonder te discrimineren maar waar je toch de gewenste resultaten uit kan halen? Kan dat überhaupt wel?
In stap 8 wordt de analyse gedaan.
De uitwerking van deze stap staat nergens beschreven. Dit laat veel onbekend over wat er met de niet-gepseudonimiseerde data (de persoonsgegevens van de personen met verhoogd risico) gedaan wordt.
Vraag: Hoe vindt die analyse plaats? Hoe worden die gegevens gebruikt? Door wie kunnen ze worden ingezien?
Tijs zei in één van zijn reacties bij het artikel dat er ook persoonsgegevens van buren opgevraagd werden. Vraag: Is dat zo? Uit welke bron komt dat? Heeft iemand een bron?
Als de bewering van Tijs waar is, dan is dat een inbreuk op de privacy, want de overheid mag bij opsporing niet zonder goede reden (je moet verdacht zijn) je persoonsgegevens opvragen. En de buurman zijn van een potentiële fraudeur valt niet onder 'verdacht zijn'. Dat mag dus niet. Maar ook hier geldt: Dit valt buiten het systeem SyRI, want dat is het werk van het opsporingsteam.
Daarnaast: Waarom wordt er zo geheim gedaan over de algoritmes van SyRI? Zijn die algoritmes wel zo state-of-the-art, of is het gewoon een data-expert die een aantal bestanden op een slimme manier aan elkaar koppelt en de resultaten terugkoppelt (daar lijkt het imo wel op)?
Mocht je mee willen discussiëren, helpen bovenstaande vragen te beantwoorden of heb je vragen die je graag wilt stellen of heb je nieuwe interessante bronnen, gooi het hieronder neer.
Het enige belangrijke is dat je vandaag altijd rijker bent dan gisteren. Als dat niet in centen is, dan wel in ervaring.