Google DeepMind ka prezantuar një mjet të ri të AI për gjenerimin e kolonave zanore të videove. Përveç përdorimit të një mesazhi në tekst për të gjeneruar audio, mjeti i DeepMind analizon gjithashtu përmbajtjen e videos.
Duke i kombinuar të dyja, DeepMind thotë se përdoruesit mund ta përdorin mjetin për të krijuar skena me “një rezultat dramatik, efekte zanore realiste ose dialog që përputhet me personazhet dhe tonin e një videoje“. Ju mund të shihni disa nga shembujt e postuar në faqen e internetit të DeepMind – dhe ato tingëllojnë mjaft mirë.
Për këtë video të një makine duke lëvizur nëpër një peizazh urbanistik të stilit cyberpunk, Google përdori kërkesën “makina që rrëshqasin, zhurmë e motorit të makinës, muzikë elektronike engjëllore” për të gjeneruar audion. Ju mund të shihni se si tingujt e rrëshqitjes përputhen me lëvizjen e makinës.
Një shembull tjetër krijon një pamje zanore nënujore duke përdorur kërkesën, “kandil deti që pluskon nën ujë, jetën detare, oqeanin“. Edhe pse përdoruesit mund të përfshijnë një kërkesë teksti, DeepMind thotë se është opsionale.
Përdoruesit gjithashtu nuk kanë nevojë të përputhen me përpikëri audion e krijuar me skenat e duhura. Sipas DeepMind, mjeti mund të gjenerojë gjithashtu një numër “të pakufizuar” kolonash zanore për video, duke i lejuar përdoruesit të krijojnë një rrymë të pafund opsionesh audio.
Kjo mund ta ndihmojë atë të dallohet nga mjetet e tjera të AI, si gjeneratori i efekteve zanore nga ElevenLabs, i cili përdor kërkesat e tekstit për të gjeneruar audio. Gjithashtu mund ta bëjë më të lehtë çiftimin e audios me videon e gjeneruar nga AI nga mjete si DeepMind’s Veo dhe Sora.
DeepMind thotë se ka trajnuar mjetin e tij të AI në video, audio dhe shënime që përmbajnë “përshkrime të detajuara të zërit dhe transkriptimet e dialogut të folur“. Kjo lejon që gjeneratori video-to-audio të përputhet me ngjarjet audio me skenat vizuale.