Brein: AI-trainingsdataset verwijdert twee miljoen illegaal…

Pagina: 1
Acties:

  • E_Rijgersberg
  • Registratie: April 2024
  • Laatst online: 18:20
Artikel: nieuws: Brein: AI-trainingsdataset verwijdert twee miljoen illegaal verkregen...
Auteur: @YannickSpinner

De titel klopt niet. Als je goed leest wat BREIN schrijft dan zijn de artikelen niet illegaal verkregen. Dat beweert BREIN ook niet in hun eigen titel of hun eigen inleiding.

Hoe zit het dan wel?
CommonCrawl indexeert alleen webpagina's die publiek beschikbaar zijn, en respecteert robots.txt files. Er wordt dus bijvoorbeeld niet achter paywalls gecrawld.

CommonCrawl mag dit ook gewoon doen volgens de Tekst- en Dataminingexceptie in de Auteurswet. Recent is dit nog verduidelijkt in het Copyright-hoofdstuk van de EU AI Act General-Purpose AI Code of Practice.

Echter: ze bieden rechthebbenden de mogelijkheid aan om, naast de robots.txt opt-out, ook nog achteraf een opt-out kenbaar te maken. Daar heeft BREIN nu namens rechthebbenden gebruik van gemaakt, en daar heeft CommonCrawl netjes gevolg aan gegeven.

Het systeem werkt hier dus volledig zoals het bedoeld is, maar dat maakt de artikelen nog niet illegaal verkregen. Betere titel zou zijn: "Brein laat met opt-out-verzoek twee miljoen artikelen verwijderen uit open webcrawl".

  • YannickSpinner
  • Registratie: Mei 2021
  • Laatst online: 16:23

YannickSpinner

Redacteur
Klopt, ik heb de bewoording aangepast. Thanks!

  • E_Rijgersberg
  • Registratie: April 2024
  • Laatst online: 18:20
Thanks voor de snelle aanpassing!

Ik ben het er nog steeds niet helemaal mee eens, omdat ongeautoriseerd een wettelijk opt-in regime impliceert in plaats van het opt-out regime dat we hebben voor commerciële TDM. Maar het is wel een stuk beter.