Scraping: attenzione alle inesattezze dell’Intelligenza Artificiale

Un algoritmo sempre più inaccurato, colmo di errori e fake news. Il 30 novembre 2024, il chatbot ChatGPT ha festeggiato il suo secondo compleanno. È il più famoso e riconoscibile sistema di questo genere, un investimento miliardario, imitato in tutto il mondo in una serie di sistemi sempre più complessi

Ma l’imitazione è parte della natura stessa dell’Intelligenza Artificiale (IA), che riempie il suo algoritmo a partire da contenuti creati da altri. 

Le accuse di imitazione

L’IA è addestrata tramite i cosiddetti modelli di linguaggio, o LLM. Questi possono essere composti in qualunque modo, a partire da file visuali, scritti, immobili o in movimento. A partire da essi, o da elementi di essi, l’Intelligenza Artificiale può ricalcare la creatività umana e realizzare prodotti dall’aspetto nuovo, in accordo con le queries ad essa dettate. Questa tecnica è chiamata scraping.

In assenza di filtri che impediscano allo scraping di mettere mano su elementi protetti da copyright, o anche solo riconoscibili come creati da altri, non sorprenderà che numerose Big, negli anni passati, hanno voltato la schiena all’IA.

Un’analisi di Newsguard, che assegna un punteggio da 0 a 100 agli articoli dei 500 siti d’informazione più attivi, mostra una correlazione proporzionale tra le inaccuratezze presenti nei pezzi e l’utilizzo di IA nella loro realizzazione.

Per essere ritenuto affidabile in accordo a tale analisi, rivolta ai 500 siti di informazione più attivi, un sito deve ottenere un punteggio di 70 su 100. Ad appartenere alla categoria sono siti giornalistici di fama: New York Times, il Guardian o il Washington Post. Il 67% delle testate di alta qualità prese in esame rifiuta anche di mettere i propri contenuti a disposizione per lo scraping. Tale scelta, volta a tutelare il copyright delle proprie produzioni, riduce il pool delle ispirazioni per i software di IA ai siti meno affidabili.

Inaccuratezze crescenti

Sempre in base all’analisi di Newsguard, il 91% dei siti di informazione di qualità minore – pari al 23% dei cinquecento presi in esame – ammette con maggior frequenza lo scraping da parte dei software di IA. I siti con tendenza alla disinformazione rappresentano dunque buona parte del “combustibile” che alimenta le IA generative.

Poiché l’IA si muove solo a comando, seguendo le richieste e le indicazioni in maniera priva di intenzionalità, essa non presenta vagli o controlli particolari alla natura dei contenuti che combina tra di loro. Si rivolge unicamente alla risoluzione della richiesta, senza soffermarsi sul senso dei pezzi e contenuti che combina. 

Contenuti che, col tempo, sembrano accumularsi l’uno sull’altro e riciclarsi a vicenda. IA che imparano da altre IA, senza alcuna filtrazione. Questo si manifesta soprattutto nei siti di informazione, che recentemente hanno riportato consigli e indicazioni erronei, persino dannosi. Ha inoltre causato una diffusione a macchia d’olio di fake news, alimentate dalla stessa IA. Basti pensare allo scandalo americano di Springfield, Ohio, che accusava falsamente gli immigrati haitiani della città di nutrirsi con la carne dei cani e dei gatti della zona: molte prove dell’evento sono state in realtà artefatte con l’IA. 

M.F.Z.