Web e Innovazione

NYT accusa OpenAI: ChatGPT-4 addestrata con i video di YouTube

Il New York Times accusa OpenAI di nuove violazioni del copyright

Secondo fonti interne al NYT, la società tecnologica avrebbe addestrato ChatGPT-4 con le trascrizioni dell’audio di milioni di video di YouTube.

Violazioni di regole

Il processo di addestramento dei sistemi di Intelligenza Artificiale rimane ad oggi ancora poco chiaro.

Il CEO di YouTube, Neal Mohan, aveva già parlato della questione relativa alla possibile violazione del copyright per l’addestramento di Sora, modello IA di OpenAI. 

Ora è il momento di ChatGPT-4. Il New York Times interviene e afferma che, nel 2021, OpenAI aveva esaurito le sue fonti affidabili in lingua inglese per addestrare il suo famoso sistema di IA. Per questo motivo, grazie a un tool di riconoscimento vocale, Whisper, il team di OpenAI ha trascritto l’audio di milioni di video Youtube, nonostante i termini di servizio vietino il download. 

Questa pratica non autorizzata prende il nome di scraping e sembra, tuttavia, diffusamente usata per arricchire i database di addestramento delle IA. 

La scarsità dei dati

Secondo le fonti del NYT, Youtube pare fosse a conoscenza dell’accesso improprio da parte di OpenAI. Non ha, tuttavia, sporto nessuna denuncia dal momento che anche Google, per addestrare i suoi modelli, ha trascritto video e ha praticato scraping. 

Rispondendo a queste dichiarazioni, un portavoce di Google ha dichiarato che sono stati sottoscritti degli accordi con i creatori.

Più i modelli di IA avanzano e si evolvono, più dati servono al loro addestramento. Google stessa ha recentemente modificato i termini dei servizi e della privacy chiedendo un consenso esplicito per accedere a più dati possibili generati dagli utenti. 

Il problema della scarsità di dati investe tutte le grandi società tecnologiche. 

Per ora, tra una denuncia per copyright e una violazione, le big tech usano maggiormente dati sintetici, ossia dati generati da altri modelli IA. Il rischio è quello di amplificare gli errori e generare output che si discostano dalla realtà, le cosiddette allucinazioni delle IA. 

Articolo di T.S.

uspi

Recent Posts

Da Iren un ecosistema di servizi dedicati alle PA

TORINO (ITALPRESS) - Le partnership tra pubblico e privato sono sempre più importanti nello sviluppo…

21 Novembre 2024

Google potrebbe vendere il suo browser Chrome

Google potrebbe vendere il suo browser Chrome, su richiesta del Dipartimento di Giustizia americano: sarebbe…

21 Novembre 2024

Inaugurato “Il Poldi Pezzoli in Humanitas”, arte e capolavori in corsia

MILANO (ITALPRESS) - Botticelli, Canaletto, Hayez, Pollaiolo, Sassoferrato entrano in ospedale. Humanitas San Pio X…

21 Novembre 2024

TopNetwork ad “Ambiente Lavoro” con nuove soluzioni per la sicurezza

BOLOGNA (ITALPRESS) - La sicurezza sul lavoro è un tema fondamentale e la tecnologia sta…

21 Novembre 2024

Donato al Museo Egizio di Torino un laser di El.En. per il restauro

TORINO (ITALPRESS) - In occasione del bicentenario della sua fondazione, il Museo Egizio di Torino…

21 Novembre 2024

Mattarella, informazione e democrazia: AI “al servizio dell’umanità”

Mattarella ammonisce su democrazia e informazione. La conoscenza è la via per orientare le innovazioni…

21 Novembre 2024