Artikel: nieuws: Brein: AI-trainingsdataset verwijdert twee miljoen illegaal verkregen...
Auteur: @YannickSpinner
De titel klopt niet. Als je goed leest wat BREIN schrijft dan zijn de artikelen niet illegaal verkregen. Dat beweert BREIN ook niet in hun eigen titel of hun eigen inleiding.
Hoe zit het dan wel?
CommonCrawl indexeert alleen webpagina's die publiek beschikbaar zijn, en respecteert robots.txt files. Er wordt dus bijvoorbeeld niet achter paywalls gecrawld.
CommonCrawl mag dit ook gewoon doen volgens de Tekst- en Dataminingexceptie in de Auteurswet. Recent is dit nog verduidelijkt in het Copyright-hoofdstuk van de EU AI Act General-Purpose AI Code of Practice.
Echter: ze bieden rechthebbenden de mogelijkheid aan om, naast de robots.txt opt-out, ook nog achteraf een opt-out kenbaar te maken. Daar heeft BREIN nu namens rechthebbenden gebruik van gemaakt, en daar heeft CommonCrawl netjes gevolg aan gegeven.
Het systeem werkt hier dus volledig zoals het bedoeld is, maar dat maakt de artikelen nog niet illegaal verkregen. Betere titel zou zijn: "Brein laat met opt-out-verzoek twee miljoen artikelen verwijderen uit open webcrawl".
Auteur: @YannickSpinner
De titel klopt niet. Als je goed leest wat BREIN schrijft dan zijn de artikelen niet illegaal verkregen. Dat beweert BREIN ook niet in hun eigen titel of hun eigen inleiding.
Hoe zit het dan wel?
CommonCrawl indexeert alleen webpagina's die publiek beschikbaar zijn, en respecteert robots.txt files. Er wordt dus bijvoorbeeld niet achter paywalls gecrawld.
CommonCrawl mag dit ook gewoon doen volgens de Tekst- en Dataminingexceptie in de Auteurswet. Recent is dit nog verduidelijkt in het Copyright-hoofdstuk van de EU AI Act General-Purpose AI Code of Practice.
Echter: ze bieden rechthebbenden de mogelijkheid aan om, naast de robots.txt opt-out, ook nog achteraf een opt-out kenbaar te maken. Daar heeft BREIN nu namens rechthebbenden gebruik van gemaakt, en daar heeft CommonCrawl netjes gevolg aan gegeven.
Het systeem werkt hier dus volledig zoals het bedoeld is, maar dat maakt de artikelen nog niet illegaal verkregen. Betere titel zou zijn: "Brein laat met opt-out-verzoek twee miljoen artikelen verwijderen uit open webcrawl".