Google lancia Gemini Live, la risposta dell’azienda alla modalità vocale avanzata di ChatGPT

L’evento Made by Google di Google si è ufficialmente concluso, dove l’azienda ha lanciato l’ultima gamma di smartphone della serie Pixel di punta. Il tam tam delle voci ha lavorato duramente per le ultime settimane su questo argomento e molte voci sono finalmente diventate realtà. Inoltre, come previsto, l’evento ha avuto anche più di qualche – beh, parecchio in realtà – menzione dell’IA.

Tra le altre cose AI, l’annuncio importante è stato il lancio di Gemini Live. Google ha annunciato Gemini Live alla sua conferenza I/O all’inizio di quest’anno. Sta finalmente arrivando agli abbonati Gemini Advanced su Android in inglese, con un lancio in altre lingue e iOS (tramite l’app Google) in arrivo a breve.

Con Gemini Live, Gemini è ora in grado di tenere conversazioni più naturali e bidirezionali. Puoi anche interromperlo nel mezzo di una risposta, proprio come in qualsiasi conversazione naturale. Puoi andare nell’app Gemini su Android per conversare con il chatbot.

Questo è simile all’esperienza Advanced Voice Mode nell’app ChatGPT che ora è disponibile in una versione alpha limitata per gli utenti di ChatGPT Plus. Per una volta, Google si è messa davanti a OpenAI nella timeline di rilascio avviando un lancio più ampio.

Gemini Live è disponibile anche in modalità vivavoce, quindi puoi parlare con Gemini in background o anche quando il telefono è bloccato. Puoi anche lasciare le conversazioni a metà e riprenderle più tardi.

Google sta lanciando Gemini Live con 10 nuove voci per rendere le tue conversazioni con l’intelligenza artificiale ancora più autentiche: puoi scegliere la voce e il tono che più ti si addicono.

In particolare, Gemini Live non può simulare nessuna voce diversa dalle 10 voci disponibili nell’app, forse per evitare problemi di copyright. ChatGPT-4o segue la stessa politica. C’è un’area in cui Gemini Live non è uguale alla modalità vocale di ChatGPT-4o. Il primo non può capire le tue emozioni dal tuo tono, cosa che OpenAI ha dimostrato che il suo chatbot potrebbe fare.

Inoltre, c’è anche una capacità di Gemini Live che Google ha mostrato alla conferenza I/O che non sarà disponibile al lancio. Sì, stiamo parlando di input multimodali. Se non sai di cosa si tratta, non preoccuparti. Ecco un riassunto: con gli input multimodali, Gemini Live può ricevere input dalla fotocamera del tuo telefono (sia foto che video) in tempo reale e rispondere a qualsiasi domanda o aiutarti a identificare gli oggetti che indichi. Ad esempio, puoi puntarlo verso un’attrezzatura da DJ e chiedergli di identificare il nome di una parte oppure puoi puntarlo sullo schermo e chiedere cosa fa una certa parte di un codice.

Ma le capacità multimodali sono state rimandate per ora e Google ha solo detto che arriveranno più avanti quest’anno, senza dettagli. È interessante notare che anche Advanced Voice Mode di ChatGPT-4o dovrebbe avere capacità simili, ma non sono state lanciate nemmeno con il lancio alpha limitato.

In particolare, Gemini Live rappresenta un passo avanti verso la concretizzazione del Progetto Astra da parte di Google.

Parlare con un chatbot a volte è molto più comodo che scrivere qualcosa, soprattutto quando vuoi fare brainstorming su qualcosa. E con Gemini Live, la conversazione può essere molto più fluida. O se le demo live dell’evento Made by Google devono essere un’indicazione, abbastanza fluida. (Il chatbot apparentemente ha avuto allucinazioni durante la demo live e c’è un po’ di attrito quando si mette alla prova la funzione “interrompi Gemini nel mezzo”). Vediamo come se la cava nel mondo reale, eh? Preparati a testare Gemini Live sul tuo Pixel, Samsung o altri dispositivi Android nelle prossime settimane, a partire da oggi.