La modalità vocale di ChatGPT è in grado di simulare la tua voce senza chiedere conferma

OpenAI ha rilasciato di recente la System Card per il suo modello GPT-4o, poco dopo che la modalità vocale avanzata per ChatGPT-4o ha iniziato a essere distribuita in versione alpha a un numero limitato di utenti di ChatGPT Plus.

Prima di pubblicare il modello all’inizio di maggio (senza la modalità Advanced Voice), OpenAI si è avvalsa di un team di red teamer esterni per analizzare i rischi associati ai modelli (come avviene di norma con i modelli di intelligenza artificiale) e ha pubblicato i risultati nella System Card.

Uno dei rischi identificati da OpenAI include la generazione di voce non autorizzata. Mentre parlava con il read teamer, GPT-4o ha clonato la sua voce e ha iniziato a parlare con un suono simile a quello del red teamer, senza che l’utente ne facesse nemmeno una richiesta. Nella clip audio condivisa da OpenAI, si può sentire GPT-4o gridare NO! e poi continuare l’output con una voce simile a quella del red teamer.

OpenAI ha delle protezioni per impedire che ciò accada, consentendo solo determinate voci pre-approvate per GPT-4o. Qualsiasi output vocale prodotto da ChatGPT-4o viene confrontato con il campione vocale nel messaggio di sistema come voce di base.

E per minimizzare ulteriormente il rischio, il modello riceve istruzioni di interrompere la conversazione se viene rilevata una generazione vocale involontaria. Il loro classificatore di output vocale ha una precisione di 0,96 in inglese e 0,95 in non inglese (motivo per cui ChatGPT-4o potrebbe indulgere in un rifiuto eccessivo di richieste vocali in conversazioni non in inglese).

Ma i risultati della System Card continuano a mostrare le complessità coinvolte nella creazione di chatbot AI in grado di simulare la voce di qualcuno con solo un breve campione e senza bisogno di una formazione approfondita su quel campione. La clonazione vocale può essere utilizzata per impersonare qualcuno e perpetrare frodi. OpenAI ha scoperto che il rischio di generazione di voci non autorizzate è minimo, tuttavia.

Anche se si mettono da parte i rischi di utilizzo per impersonificazione e frode a causa delle misure di sicurezza in atto, sarebbe comunque piuttosto snervante quando si parla con una macchina e questa inizia a rispondere con la tua voce, all’improvviso. Un certo Data Scientist su X l’ha definita “la trama per la prossima stagione di Black Mirror” e certamente sembra così. Un altro utente afferma su X che gli è successo in ChatGPT-4o alpha, ma non si sa se sia la verità o no.

Tuttavia, c’è la possibilità che ciò accada la prossima volta che parli con ChatGPT-4o. E questo è un PSA: non agitarti se succede, o non agitarti troppo.

OpenAI ha inoltre predisposto misure di sicurezza per garantire che GPT-4o si rifiuti di identificare le persone e di generare contenuti protetti da copyright, altri rischi scoperti durante la valutazione.

Tra gli altri rischi che l’azienda ha trovato con il modello, ha collocato la maggior parte di essi nella categoria bassa. Questi includono sicurezza informatica, minacce biologiche e autonomia del modello. Tuttavia, per la persuasione, ha trovato il rischio medio: significa che alcuni campioni di scrittura prodotti da GPT-4o si sono dimostrati più persuasivi del testo scritto da esseri umani nel influenzare le opinioni delle persone.