Brein: AI-trainingsdataset verwijdert twee miljoen illegaal… - Geachte redactie

dinsdag 4 november 2025 13:02

Acties:

Topicstarter

Artikel: nieuws: Brein: AI-trainingsdataset verwijdert twee miljoen illegaal verkregen...
Auteur: @YannickSpinner

De titel klopt niet. Als je goed leest wat BREIN schrijft dan zijn de artikelen niet illegaal verkregen. Dat beweert BREIN ook niet in hun eigen titel of hun eigen inleiding.

Hoe zit het dan wel?
CommonCrawl indexeert alleen webpagina's die publiek beschikbaar zijn, en respecteert robots.txt files. Er wordt dus bijvoorbeeld niet achter paywalls gecrawld.

CommonCrawl mag dit ook gewoon doen volgens de Tekst- en Dataminingexceptie in de Auteurswet. Recent is dit nog verduidelijkt in het Copyright-hoofdstuk van de EU AI Act General-Purpose AI Code of Practice.

Echter: ze bieden rechthebbenden de mogelijkheid aan om, naast de robots.txt opt-out, ook nog achteraf een opt-out kenbaar te maken. Daar heeft BREIN nu namens rechthebbenden gebruik van gemaakt, en daar heeft CommonCrawl netjes gevolg aan gegeven.

Het systeem werkt hier dus volledig zoals het bedoeld is, maar dat maakt de artikelen nog niet illegaal verkregen. Betere titel zou zijn: "Brein laat met opt-out-verzoek twee miljoen artikelen verwijderen uit open webcrawl".

dinsdag 4 november 2025 13:52

Acties:

YannickSpinner

Redacteur

Klopt, ik heb de bewoording aangepast. Thanks!

dinsdag 4 november 2025 14:08

Acties:

E_Rijgersberg

Topicstarter

Thanks voor de snelle aanpassing!

Ik ben het er nog steeds niet helemaal mee eens, omdat ongeautoriseerd een wettelijk opt-in regime impliceert in plaats van het opt-out regime dat we hebben voor commerciële TDM. Maar het is wel een stuk beter.