ByteDance, gjiganti i teknologjisë pas TikTok, ka prezantuar një model të inteligjencës artificiale (AI) që po fiton vëmendje të gjerë për aftësinë e tij për të transformuar fotot dhe audiot në video realiste, duke nënvizuar aftësitë në rritje të Kinës në këtë fushë.
Modeli multimodal i kompanisë OmniHuman-1 mund të krijojë video të njerëzve që flasin, këndojnë dhe lëvizin me një cilësi “duke tejkaluar ndjeshëm metodat ekzistuese të gjenerimit të videove me audio“, tha ekipi i ByteDance që qëndron pas produktit. Imazhet, videot dhe audiot e njerëzve të vërtetë të krijuara nga AI shpesh referohen si deepfakes, një teknologji që bëhet më e spikatur në rastet e mashtrimit, si dhe në përdorime më të padëmshme për argëtim.
Edhe pse kompania nuk e ka prezantuar ende për tregun OmniHuman-1, aftësitë e modelit AI janë bërë virale. Një demonstrim i dukshëm përmban një video 23 sekondash të Albert Einstein duke mbajtur një fjalim. Komentuesit në këto video mbetën të mahnitur nga aftësitë tepër reale të këtij modeli AI.
OmniHuman-1 tregon përparimet që zhvilluesit kinezë po bëjnë pavarësisht përpjekjeve të Uashingtonit për të frenuar përparimin e AI të vendit. Në punimin teknik të botuar të martën, studiuesit e ByteDance Lin Gaojie, Jiang Jianwen, Yang Jiaqi, Zheng Zerong dhe Liang Chao detajuan një strategji të re trajnimi që kombinon grupe të ndryshme të dhënash të tekstit, audios dhe lëvizjes për të ndërtuar modele më të avancuara të gjenerimit të videove, në një përpjekje për të adresuar sfidat me të cilat përballen studiues të tillë.
ByteDance tha se qasja e përzierjes së të dhënave lejon gjenerimin e videove realiste me raporte të ndryshme të pamjes dhe përmasave të trupit, nga pamjet e afërta të fytyrave deri te shkrepjet me të gjithë trupin. Klipet e krijuara paraqesin shprehje të detajuara të mimikës së fytyrës që përputhen me audion, duke zhbllokuar potencialisht aplikacione më të gjera në botën reale, tha ekipi.