Nuove strategie per l’AI: la risposta di Google alla sfida di OpenAI

Il 14 maggio si è tenuto il tanto atteso Google I/O 2024. Alla Conferenza annuale degli sviluppatori Google ha illustrato le proprie nuove strategie per l’AI. Come previsto, l’azienda di Mountain View ha risposto a tono alle provocazioni lanciate giorni fa da OpenAI. Il CEO Sundar Pichai ha anticipato le direzioni di sviluppo che saranno percorse dalla casa.

Le nuove funzionalità annunciate da Google: AI Overviews e filtro “Web”

La prima aggiunta al motore di ricerca Google saranno le AI Overviews, riepiloghi di informazioni prodotti dall’Intelligenza Artificiale. Si tratta di sintesi di dati tratti da varie fonti in rete con annessi link alle stesse. Le Overviews permettono al motore di ricerca di rispondere efficacemente anche a domande più complesse della norma. Ciò consentirà di concentrare in un unico quesito più richieste semplici. Al momento, queste panoramiche sugli argomenti ricercati sono disponibili solo per gli States e il Regno Unito, ma verranno estese ad altri Paesi. Dato che non tutti gli utenti potrebbero apprezzare questa funzionalità, Google ha previsto anche un filtro “Web” che permette di visualizzare solo collegamenti diretti ad altri siti. Il filtro privilegia le ricerche solo testuali ed evita il caricamento di contenuti troppo pesanti, che rallenterebbero il lavoro.

La risposta a OpenAI: Project Astra e Veo

In risposta al Gpt.40 di OpenAI, Google ha poi creato Project Astra, un assistente digitale “multimodale”. L’assistente è capace di produrre testi, voce e immagini coerenti con il contesto di ricerca degli utenti, in tempo reale. Per questo motivo s’inserisce a pieno titolo fra gli “AI Agents”, sistemi intelligenti che lavoreranno sotto la supervisione umana. Attraverso lo smartphone o un paio di occhiali intelligenti l’agente dovrà recepire e ricordare ciò che vede in video per essere più proattivo. Sarà di supporto nella vita quotidiana, imparando dai contesti ambientali in cui è immerso. Grazie a specifici modelli vocali, offrirà una gamma più ampia di intonazioni di voce e risponderà più velocemente nelle conversazioni.

In competizione con Sora di OpenAI, fra le nuove strategie Google ha lanciato anche Veo. Si tratta di un’AI che genera filmati di alta qualità in linea con la visione creativa dell’utente. E lo fa grazie a una capacità avanzata di interpretare il linguaggio naturale e la semantica visiva. Ad esempio, il modello riesce a comprendere anche termini cinematografici quali timelapse. Per generare da testi foto realistiche e molto dettagliate, invece, l’azienda statunitense ha creato Imagen3.

Un aiuto per comporre musica

Nuovo di zecca è, poi, Music Al Sandbox, uno strumento sperimentato assieme al musicista Wyclef Jean. Metterà a disposizione degli utenti una serie di strumenti musicali per supportarli nella composizione di brani. Google si è avvalsa della consulenza del vincitore di Grammy per rassicurare gli artisti. Molti, infatti, sono turbati dall’idea che l’AI possa influenzare od ostacolare la creatività umana.

Le migliorie di prodotti già esistenti

Alcune migliorie interesseranno anche prodotti già in commercio. Ad esempio, con Ask Photos si potranno ricercare immagini nella libreria di Google Foto attraverso comandi vocali e testuali. Al riguardo Google ha garantito che per scopi pubblicitari non verranno mai utilizzati né video né foto degli utenti. A quanto pare, dunque, la privacy di chi naviga è salva. La funzione “Chiedi a Foto” può aiutare anche a selezionare gli scatti migliori e a dotarli di didascalia personalizzata.

Non da ultimo, fra le nuove strategie è in arrivo la sesta generazione di processori, Trillium. Saranno dotati di un acceleratore per il Cloud mediante AI, molto efficiente anche dal punto di vista energetico.

I progressi di Gemini

Quanto a Gemini, la versione 1.5 Pro d’ora in poi fornirà pure sommari per le mail, preparerà riassunti e sintetizzerà i contenuti delle riunioni. Verrà lanciato anche un tipo più veloce di Large Language Model. Gemini 1.5 Flash, più leggero ed efficiente, è stato addestrato “per distillazione” da 1.5 Pro. È capace di riassumere, chattare, creare sottotitoli per video, estrarre dati da lunghe tabelle. Inoltre, abbonandosi a Gemini Advanced, si potrà personalizzare il chatbot con la funzione Gems. Ogni versione personalizzata terrà conto delle preferenze personali dell’utente, tracciandone le attività. Di fatto, Gems somiglierà molto a GPT Store, atto a personalizzare ChatGPT di OpenAI.

Novità per i telefoni Android

Fra le nuove strategie sembra assai utile, infine, una feature che metterà in guardia gli utenti dalle chiamate truffa già nel corso della telefonata. Attraverso Gemini Nano, la funzionalità anti-frode sarà attivabile sui dispositivi Android. Con una notifica l’utente sarà messo in guardia, se il sistema rileva modelli di conversazione sospetti, in genere associati alle truffe.

Articolo di M.P.