La società creatrice di ChatGPT, OpenAI, ha annunciato le API (Application Programming Interface) per il suo modello speech-to-text Whisper.
Cos’è Whisper
Whisper è una rete neurale artificiale, ossia un modello computazionale composto di “neuroni” artificiali che simulano il ragionamento umano. Ispirato alla rete neurale biologica, Whisper apprende automaticamente e il suo compito è la speech recognition (riconoscimento vocale automatico).
Whisper è anche capace di trascrivere un audio in qualsiasi lingua grazie alle oltre 680.000 ore di dati di addestramento. Può tradurre da 57 lingue solo in inglese (per il momento).
Il modello è supportato in ben 98 lingue, ma diminuiscono se si calcolano solo quelle che hanno una percentuale di errore inferiore al 50%. Il file audio o testo prodotto può essere salvato in diversi formati (mp3, mp4, mpeg, m4a, wav, webm) e ha una capacità massima di 25 Mb.
Le API di Whisper
Con la fornitura di API a Whisper, si avrà la possibilità di integrare il riconoscimento vocale e la funzione speech-to-text in app, servizi e prodotti.
OpenAI ha già reso disponibile l’utilizzo delle API e ha pubblicato una lista di app che ne fanno uso.
Gli sviluppatori che vorranno usufruire delle API di Whisper per accedere al modello large-V2 (modello pre-addestrato su lingua inglese che usa la modellazione linguistica mascherata, MLM) dovranno pagare 0,006 dollari al minuto. È anche disponibile l’accesso gratuito, ma le prestazioni sono sensibilmente inferiori.
Articolo di T. S.