Web e Innovazione

NYT accusa OpenAI: ChatGPT-4 addestrata con i video di YouTube

Il New York Times accusa OpenAI di nuove violazioni del copyright

Secondo fonti interne al NYT, la società tecnologica avrebbe addestrato ChatGPT-4 con le trascrizioni dell’audio di milioni di video di YouTube.

Violazioni di regole

Il processo di addestramento dei sistemi di Intelligenza Artificiale rimane ad oggi ancora poco chiaro.

Il CEO di YouTube, Neal Mohan, aveva già parlato della questione relativa alla possibile violazione del copyright per l’addestramento di Sora, modello IA di OpenAI. 

Ora è il momento di ChatGPT-4. Il New York Times interviene e afferma che, nel 2021, OpenAI aveva esaurito le sue fonti affidabili in lingua inglese per addestrare il suo famoso sistema di IA. Per questo motivo, grazie a un tool di riconoscimento vocale, Whisper, il team di OpenAI ha trascritto l’audio di milioni di video Youtube, nonostante i termini di servizio vietino il download. 

Questa pratica non autorizzata prende il nome di scraping e sembra, tuttavia, diffusamente usata per arricchire i database di addestramento delle IA. 

La scarsità dei dati

Secondo le fonti del NYT, Youtube pare fosse a conoscenza dell’accesso improprio da parte di OpenAI. Non ha, tuttavia, sporto nessuna denuncia dal momento che anche Google, per addestrare i suoi modelli, ha trascritto video e ha praticato scraping. 

Rispondendo a queste dichiarazioni, un portavoce di Google ha dichiarato che sono stati sottoscritti degli accordi con i creatori.

Più i modelli di IA avanzano e si evolvono, più dati servono al loro addestramento. Google stessa ha recentemente modificato i termini dei servizi e della privacy chiedendo un consenso esplicito per accedere a più dati possibili generati dagli utenti. 

Il problema della scarsità di dati investe tutte le grandi società tecnologiche. 

Per ora, tra una denuncia per copyright e una violazione, le big tech usano maggiormente dati sintetici, ossia dati generati da altri modelli IA. Il rischio è quello di amplificare gli errori e generare output che si discostano dalla realtà, le cosiddette allucinazioni delle IA. 

Articolo di T.S.

uspi

Recent Posts

Show Bologna, poi la Juve rimonta: 3-3 al “Dall’Ara”

BOLOGNA (ITALPRESS) - Pareggio dai due volti al "Dall'Ara" tra Bologna e Juventus: la squadra…

20 Maggio 2024

Il Verona vince a Salerno e conquista la salvezza

SALERNO (ITALPRESS) - Nel posticipo del lunedì della penultima giornata di Serie A, l'Hellas Verona…

20 Maggio 2024

Balneari, per Consiglio di Stato illegittime proroghe generalizzate

ROMA (ITALPRESS) - Con le tre sentenze depositate oggi e relative ai giudizi oggetto delle…

20 Maggio 2024

Al via la Summer Experience del Gruppo FS, oltre 700 destinazioni

ROMA (ITALPRESS) - Con nuovi collegamenti per le mete turistiche estive, città d'arte e borghi…

20 Maggio 2024

Nuove strategie per l’AI: la risposta di Google alla sfida di OpenAI

Presentate, il 14 maggio scorso, le nuove funzionalità di Google alla Conferenza annuale degli sviluppatori…

20 Maggio 2024

Taradash “Da Russia e Cina le più grandi minacce per l’Europa”

ROMA (ITALPRESS) - La forza dell'Europa che si andrà a delineare dopo il voto andrà…

20 Maggio 2024