Een recente ontdekking heeft onthuld dat AI-systemen zich massaal trainen op ondertitels van films en tv-series in plaats van op de originele scripts, wat nieuwe zorgen oproept over auteursrechten en de toekomst van de creatieve industrie. Het blijkt dat meer dan 53.000 films en 85.000 tv-afleveringen – waaronder iconen als The Wire, The Sopranos en Breaking Bad – zijn opgenomen in een gigantische AI-trainingsdataset, gebruikt door techgiganten zoals Apple, Meta en Nvidia.
Waarom ondertitels?
Volgens The Atlantic, dat het rapport publiceerde, worden ondertitels gebruikt omdat ze een ‘rauwe vorm van geschreven dialoog’ bevatten die de ritmes en nuances van gesproken taal weerspiegelt. Dit maakt ze bijzonder waardevol voor het trainen van chatbots om op een natuurlijke manier te ‘spreken’. In plaats van de scripts van de films en series zelf, wordt de dialoog uit de ondertitels gehaald, wat de techbedrijven de mogelijkheid biedt om generatieve AI verder te ontwikkelen voor toepassingen zoals chatbots en virtuele assistenten.
Wat zit er in de dataset?
De dataset bevat een indrukwekkende hoeveelheid content, waaronder de volledige dialoog van alle films die tussen 1950 en 2016 werden genomineerd voor de Oscar voor Beste Film, meer dan 600 afleveringen van The Simpsons, en 170 afleveringen van Seinfeld. Ook klassiekers als Twin Peaks, The Wire en Breaking Bad maken deel uit van de dataset. Daarnaast bevat het gegevens van boeken, YouTube-video’s en zelfs vooraf geschreven dialoog van prijsuitreikingen zoals de Oscars en Golden Globes.
De zorgen van de creatieve industrie
De ontdekking dat ondertitels van zoveel populaire films en series worden gebruikt, roept vragen op over de ethiek van AI-training en de bescherming van het werk van schrijvers. Auteurs hebben vaak vermoed dat hun werk wordt gebruikt voor het trainen van AI-systemen, vooral gezien het vermogen van chatbots om opmerkelijke film- en tv-referenties te reproduceren. Maar de onthulling dat AI zelfs specifieke karakters en stijlen uit populaire shows kan nabootsen, maakt het voor schrijvers en makers steeds moeilijker om hun werk te beschermen tegen ongeoorloofd gebruik.
De Toekomst van AI en auteursrechten
De vraag rijst of AI daadwerkelijk zou moeten ‘spreken’ als het zich niet kan verhouden tot de menselijke ervaring van creatie en auteurschap. Auteurs maken zich zorgen over het gebruik van hun werk zonder toestemming, wat niet alleen de integriteit van de creatieve industrie bedreigt, maar ook het economisch welzijn van degenen die in deze sector werken. Jörg Tiedemann, een van de makers van de dataset, gaf echter aan geen bezwaar te hebben tegen het gebruik van OpenSubtitles.org voor AI-training, ondanks de onbedoelde gevolgen voor schrijvers.
Het is duidelijk dat de technologische vooruitgang AI-tools in staat stelt om op ondenkbare manieren menselijke creaties na te bootsen. Of dit de toekomst is waar we op zitten te wachten, blijft echter een open vraag. De ontwikkelingen rondom generatieve AI en het gebruik van ondertitels kunnen de relatie tussen auteurs en technologie ingrijpend veranderen, en mogelijk zelfs het werk van schrijvers overbodig maken.
There’s No Longer Any Doubt That Hollywood Writing Is Powering AIDialogue from these movies and TV shows has been used by companies such as Apple and Anthropic to train AI systems.
|