Cronache

Audio WhatsApp, ecco il robot che clona le voci: enorme rischio di truffe

di Antonio Amorosi

Clonare la tua voce con una clip audio di 3 secondi. Microsoft sta lavorando a un'Intelligenza artificiale, VALL-E, in grado di farlo. Implicazioni devastanti

L’Intelligenza artificiale che può clonare la tua voce

Bastano pochi secondi del tuo audio per rubarti la voce. E’ la nuova frontiera che tiene insieme ChatGPT e nuove tecnologie. Ci riesce un’Intelligenza artificiale chiamata VALL-E, addestrata con 60.000 ore di conversazione, per ora in inglese, ma presto applicata a tutte le lingue. Magari avete mandato un audio a un amico, in una chat di genitori o pubblicato un video su youtube dove si sente il suono della vostra voce.

VALL-E la rielabora, parlerà con la vostra stessa voce, al vostro posto, in modo naturale dicendo anche parole che non avete mai pronunciato e non è sarà possibile distinguere se siete voi o la sintesi artificiale. Microsoft, che ne ha il controllo ha in programma di investire 10 miliardi di dollari in ChatGPT per VALL-E in modo da poter clonare la voce di qualcuno da una clip audio di tre secondi. ChatGPT è il software di OpenAI che usa l'Intelligenza artificiale per scrivere testi che non si distinguono da quelli umani

E se pensate che nella voce artificiale possa mancare l’emozione vi sbagliate. “La sintesi vocale emotiva”, spiegano gli autori dello studio dal titolo “Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers”, che sta alla base dell’invenzione, “è un classico argomento secondario della sintesi vocale, che sintetizza il discorso con un'emozione richiesta. I metodi tradizionali allenano sempre a modello su un set di dati TTS emotivo supervisionato, in cui il discorso corrisponde a una trascrizione e un'etichetta di emozione.

Scopriamo che VALL-E può preservare l'emozione nel prompt con un'impostazione zero-shot.  Selezioniamo suggerimenti acustici da EmoV-DB, un set di dati contenente parlato con cinque emozioni...”. Tradotto: alla voce può essere data una gamma di 5 emozioni. I realizzatori, che hanno condiviso la loro scoperta sul sito accademico ArXiv, scrivono che l’invenzione supera i sistemi più avanzati del suo genere, "in termini di naturalezza del parlato e somiglianza dei parlanti".

A risentire le prove fatte e che sono disponibili on line vi assicuriamo che le voci artificiali non si distinguono da quelle umane. Non serve spiegare perché le implicazioni sono devastanti. Nelle indicazioni di VALL-E c’è anche scritto che il mezzo, in caso di uso improprio, potrebbe facilmente essere utilizzato per "falsificare l'identificazione vocale o impersonare un oratore specifico". 

Scrivono i realizzatori in un documento: "Per mitigare tali rischi, è possibile costruire un modello di rilevamento per discriminare se una clip audio è stata sintetizzata da VALL-E" o è una voce vera. Ma non si sa bene come questo possa avvenire e con quale certezza, visto che l’ascolto umano non sembra più essere affidabile nell’identificare gli altri, tanto meno non in presenza come al telefono.

Questa specifica Intelligenza artificiale non è attualmente disponibile per uso pubblico e Microsoft non ha chiarito quale sia lo scopo previsto. Non sappiamo se a livello militare sia già in uso e a chi, ma è molto probabile che nei vari conflitti l’utilizzo avanzato abbia allettato chi ne ha bisogno per manipolare l’identità degli avversari.

E’ probabile che nel caso di utilizzo commerciale si preveda l’autorizzazione del parlante che consente di utilizzare la propria voce per la riproduzione. Un po' come quei software che ti invecchiano una volta acquisita la tua immagine. Non si sa bene che fine faccia la tua immagine, ma che importa (sic!). Siamo certi che orde di appassionati metteranno a disposizione la propria voce anche per questo software