Microsoft Research Asia ka prezantuar një mjet të ri eksperimental të AI të quajtur VASA-1 që mund të marrë një imazh të palëvizshëm të një personi – ose vizatimin e tij – dhe të ngarkojë një audio ekzistuese për të krijuar një video ku një fytyra flet në kohë reale.
Ai ka aftësinë për të gjeneruar shprehje të fytyrës dhe lëvizje të kokës në një imazh ekzistues të palëvizshëm dhe lëvizjet e duhura të buzëve për t’u përshtatur me një fjalim ose një këngë. Studiuesit ngarkuan një ton shembujsh në faqen e projektit dhe rezultatet duken mjaft të mira saqë mund të mashtrojnë njerëzit duke menduar se janë të vërteta.
Ndërsa lëvizjet e buzës dhe kokës në shembujt mund të duken ende pak robotike dhe të pa sinkronizuara pas inspektimit më të afërt, është ende e qartë se teknologjia mund të keqpërdoret për të krijuar lehtësisht dhe shpejt video të rreme të njerëzve të vërtetë. Vetë studiuesit janë të vetëdijshëm për këtë potencial dhe kanë vendosur të mos lëshojnë “një demonstrim në internet, API, produkt, detaje shtesë të zbatimit ose ndonjë ofertë të lidhur” derisa të jenë të sigurt se teknologjia e tyre “do të përdoret me përgjegjësi dhe në përputhje me rregulloret.”
Megjithatë, ata nuk thanë nëse po planifikojnë të zbatojnë masa të caktuara mbrojtëse për të parandaluar aktorët e këqij që t’i përdorin ato për qëllime të liga, të tilla si krijimi i fushatave pornografike të falsifikuara ose dezinformimit. Studiuesit besojnë se teknologjia e tyre sjell shumë përfitime pavarësisht potencialit të saj për keqpërdorim.
Ata thanë se mund të përdoret për të rritur barazinë arsimore, si dhe për të përmirësuar aksesin për personat me probleme komunikimi, ndoshta duke u dhënë atyre akses në një avatar që mund të komunikojë për ta. Ai gjithashtu mund të ofrojë shoqëri dhe mbështetje terapeutike për ata që kanë nevojë, duke nënkuptuar se VASA-1 mund të shndërrohet në një mik virtual me të cilët njerëzit mund të flasin.
Sipas revistës së publikuar me njoftimin, VASA-1 është trajnuar në grupin e të dhënave VoxCeleb2, i cili përmban “mbi 1 milion thënie për 6,112 të famshëm” që janë nxjerrë nga videot në YouTube. Edhe pse mjeti ishte trajnuar në fytyra reale, ai gjithashtu funksionon në foto artistike si Mona Lisa, të cilat studiuesit i kombinuan në mënyrë argëtuese me një audio të interpretimit viral të Anne Hathaway të Paparazzi-t të Lil Wayne.