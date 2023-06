Meta, l’azienda dietro il famoso social network Facebook, ha di nuovo fatto parlare di sé con un altro importante annuncio nel campo dell’Intelligenza Artificiale. Dopo il recente lancio di IA MusicGen, un sistema in grado di generare musica originale, Meta ha svelato il suo ultimo progetto: l’IA Meta Voicebox, un modello text-to-speech generativo che promette di rivoluzionare la generazione di parlato.

Meta Voicebox: L’IA che rivoluziona la generazione del parlato

Meta Voicebox può essere considerato una sorta di “Chatbot per la parola”. Mentre ChatGPT e Dall-E hanno fatto grandi progressi nel generare testi e immagini, Voicebox si concentra sull’output audio. In pratica, l’IA converte i testi in input in file audio realistici, fornendo agli utenti una risposta parlata anziché scritta.

Secondo Meta, Voicebox è un “modello linguistico non-autoregressivo e ritmato”, addestrato per produrre il parlato in base a un contesto audiofonico e un testo di base. Per creare questo modello, Meta ha utilizzato un vasto set di dati composto da oltre 50.000 ore di audio non filtrato. Le trascrizioni e le voci registrate provengono da una varietà di audiolibri di pubblico dominio, tradotti in diverse lingue, tra cui inglese, francese, spagnolo, tedesco, portoghese e polacco.

Grazie a questo ampio e diversificato dataset, Voicebox è in grado di generare un parlato molto simile a una conversazione reale, indipendentemente dalla lingua parlata. Secondo i ricercatori di Meta, i risultati ottenuti mostrano che il modello di riconoscimento del parlato addestrato su audio generati sinteticamente da Voicebox è altrettanto accurato dei modelli addestrati su parlato umano reale. L’errore di Voicebox è stimato all’1%, a differenza dei principali modelli text-to-speech non basati sull’IA, che presentano un tasso di errore compreso tra il 45% e il 70%.

Tuttavia, Voicebox non si limita solo a leggere testi, ma può anche generare discorsi completi e aggiungere dettagli a quelli esistenti, a condizione che il contesto sia sufficientemente ampio. I ricercatori di Meta hanno spiegato che il modello è in grado di estrarre il parlato dal contesto, consentendo di inserire porzioni di discorso autogenerate all’interno di una registrazione audio senza dover ricreare l’intero input.

Oltre alla generazione di parlato, Voicebox ha altre interessanti capacità. Ad esempio, può essere utilizzato per editare video e sostituire parole pronunciate scorrettamente da attori o doppiatori. Questa funzionalità potrebbe rivoluzionare molti settori, come quello del doppiaggio cinematografico o delle traduzioni in tempo reale.

Nonostante le promettenti potenzialità di Voicebox, Meta ha annunciato che per il momento il modello non sarà reso disponibile al di fuori dell’azienda. Non è chiaro se e quando Meta deciderà di rendere pubblica questa innovativa tecnologia. Tuttavia, l’annuncio di Meta Voicebox conferma ancora una volta il costante impegno dell’azienda nel campo dell’IA e la sua volontà di spingere sempre più avanti i confini delle possibilità offerte da questa tecnologia.

