Quando è stato rilasciato il primo video generato dall’intelligenza artificiale, nessuno avrebbe potuto immaginare che gli strumenti di intelligenza artificiale per la generazione di video sarebbero arrivati così lontano in così poco tempo. Tuttavia, oggi abbiamo innumerevoli piattaforme che consentono agli utenti di generare video di alta qualità e incredibilmente dettagliati, come Synthesia e Dream Machine di Luma AI. Detto questo, ci sono ancora alcune sfide che impediscono a questi strumenti di diventare mainstream.
E il più grande forse è il processo di generazione audio. Mentre la maggior parte delle piattaforme di generazione video può produrre video di buona qualità, sono per lo più video muti senza audio. Anche se c’è l’audio, di solito viene aggiunto separatamente e non soddisfa le aspettative degli utenti.
Ad esempio, se visiti la pagina Dream Machine di Luma AI, potrai vedere alcuni video davvero impressionanti, ma il suono che li accompagna è piuttosto generico e di bassa qualità. Ma le cose potrebbero cambiare con la nuova tecnologia video-to-audio (V2A) di Google.
Ciò promette di portare la generazione di audio di buona qualità per i video alla portata di tutti, il che significa che potrebbe finalmente consentire di produrre film generati dall’intelligenza artificiale con colonne sonore e audio adeguati, superando tutti i video generati dall’intelligenza artificiale attualmente prodotti.
https://www.youtube.com/watch?v=VYjZlF6m3nQ
In cosa consiste la ricerca Video-Audio di Google DeepMind?
La tecnologia Video-to-Audio (V2A) sviluppata da DeepMind di Google è progettata per creare colonne sonore per video generati dall’intelligenza artificiale. Questa tecnologia consente di generare video e audio simultaneamente combinando istruzioni in linguaggio naturale con pixel video per generare suoni per qualsiasi azione si svolga nel video.
Questa tecnologia può essere abbinata a modelli di intelligenza artificiale utilizzati per generare video, come Veo, e può aiutare a creare dialoghi ed effetti sonori realistici insieme a colonne sonore drammatiche che corrispondono al video. Ancora più importante, la nuova tecnologia V2A non si limita solo ai video generati utilizzando l’intelligenza artificiale, ma può anche essere utilizzata per generare colonne sonore per video prodotti in modo tradizionale. Pertanto, puoi usarlo per film muti, materiale d’archivio e altro ancora.
La tecnologia V2A consente agli utenti di generare colonne sonore illimitate per i video e persino di utilizzare prompt positivi e negativi per guidare il processo di generazione del suono e ottenere facilmente i suoni richiesti. Ciò consente anche una maggiore flessibilità, in modo da poter sperimentare vari output e trovare ciò che è meglio per un video particolare.
https://www.youtube.com/watch?v=9Q0-t8D9XFI
Come funziona la tecnologia V2A?
Secondo Google, l’azienda ha sperimentato tecniche basate sulla diffusione e autoregressive e ha ritenuto che le prime fossero le più adatte alla produzione del suono. Il risultato è un suono altamente realistico e funziona codificando il video in un formato compresso.
Successivamente, il modello di diffusione viene utilizzato per separare il rumore casuale dal video facendo affidamento sulle istruzioni del linguaggio naturale e del video. Le istruzioni aiutano a generare un audio realistico perfettamente sincronizzato con il video. Successivamente viene decodificato l’audio, dopodiché viene convertito in una forma d’onda audio e unito al video.
DeepMind di Google ha fornito maggiori informazioni per addestrare l’IA, grazie alle quali gli utenti possono guidare il processo di generazione audio verso i suoni richiesti e consente alla piattaforma di produrre audio di qualità superiore. Tali informazioni includevano trascrizioni di dialoghi parlati e descrizioni dettagliate dei suoni con annotazioni generate dall’IA.
Grazie all’apprendimento di tali informazioni, la tecnologia V2A è in grado di associare diverse scene visive a specifici eventi audio.
Cosa c’è all’orizzonte?
La tecnologia V2A di DeepMind offre prestazioni molto migliori rispetto ad altre soluzioni V2A poiché non sempre richiede un messaggio di testo ed è in grado di comprendere i pixel video. Inoltre, non è necessario allineare manualmente l’uscita audio con il video. Tuttavia, esistono ancora alcuni limiti della tecnologia, che Google intende superare con ulteriori ricerche.
Ad esempio, la qualità dell’audio generato dipende dalla qualità del video utilizzato come input. Se nel video sono presenti distorsioni o artefatti, il modello AI non riesce a comprenderli poiché non sono inclusi nel suo addestramento, con conseguente riduzione della qualità audio.
Inoltre, per i video che contengono voce umana, l’azienda sta lavorando per migliorare la sincronizzazione labiale. La tecnologia V2A cerca di generare la voce usando le trascrizioni di input e poi di allinearla con i movimenti labiali dei personaggi nel video. Tuttavia, se il video non si basa sulle trascrizioni, c’è una discrepanza tra l’audio e i movimenti labiali.
Con migliori capacità di generazione audio, i modelli AI saranno in grado di generare video che non solo sembrano impressionanti ma hanno anche un suono eccezionale. Google sta inoltre integrando la sua tecnologia V2A con SynthID, che filigrana tutti i contenuti generati utilizzando l’intelligenza artificiale. Ciò può aiutare a prevenirne l’uso improprio, garantendo la completa sicurezza.
Inoltre, l’azienda afferma che testerà rigorosamente la sua tecnologia V2A prima di rilasciarla al pubblico. Finora, da quanto Google ha mostrato e promesso per il futuro, questa tecnologia si sta configurando come un importante progresso nella generazione audio per i video generati dall’intelligenza artificiale.
Lascia un commento