NYT accusa OpenAI: ChatGPT-4 addestrata con i video di YouTube

Il New York Times accusa OpenAI di nuove violazioni del copyright

Secondo fonti interne al NYT, la società tecnologica avrebbe addestrato ChatGPT-4 con le trascrizioni dell’audio di milioni di video di YouTube.

Violazioni di regole

Il processo di addestramento dei sistemi di Intelligenza Artificiale rimane ad oggi ancora poco chiaro.

Il CEO di YouTube, Neal Mohan, aveva già parlato della questione relativa alla possibile violazione del copyright per l’addestramento di Sora, modello IA di OpenAI. 

Ora è il momento di ChatGPT-4. Il New York Times interviene e afferma che, nel 2021, OpenAI aveva esaurito le sue fonti affidabili in lingua inglese per addestrare il suo famoso sistema di IA. Per questo motivo, grazie a un tool di riconoscimento vocale, Whisper, il team di OpenAI ha trascritto l’audio di milioni di video Youtube, nonostante i termini di servizio vietino il download. 

Questa pratica non autorizzata prende il nome di scraping e sembra, tuttavia, diffusamente usata per arricchire i database di addestramento delle IA. 

La scarsità dei dati

Secondo le fonti del NYT, Youtube pare fosse a conoscenza dell’accesso improprio da parte di OpenAI. Non ha, tuttavia, sporto nessuna denuncia dal momento che anche Google, per addestrare i suoi modelli, ha trascritto video e ha praticato scraping. 

Rispondendo a queste dichiarazioni, un portavoce di Google ha dichiarato che sono stati sottoscritti degli accordi con i creatori.

Più i modelli di IA avanzano e si evolvono, più dati servono al loro addestramento. Google stessa ha recentemente modificato i termini dei servizi e della privacy chiedendo un consenso esplicito per accedere a più dati possibili generati dagli utenti. 

Il problema della scarsità di dati investe tutte le grandi società tecnologiche. 

Per ora, tra una denuncia per copyright e una violazione, le big tech usano maggiormente dati sintetici, ossia dati generati da altri modelli IA. Il rischio è quello di amplificare gli errori e generare output che si discostano dalla realtà, le cosiddette allucinazioni delle IA. 

Articolo di T.S.