Ky shërbim AI nga Microsoft mund të shndërrojë fotot e njerëzve në video realistike ku duket sikur ata po këndojnë apo flasin

Last updated: 22 Prill, 2024 6:52 am

3 Min lexim

Microsoft Research Asia ka prezantuar një mjet të ri eksperimental të AI të quajtur VASA-1 që mund të marrë një imazh të palëvizshëm të një personi – ose vizatimin e tij – dhe të ngarkojë një audio ekzistuese për të krijuar një video ku një fytyra flet në kohë reale.

Ai ka aftësinë për të gjeneruar shprehje të fytyrës dhe lëvizje të kokës në një imazh ekzistues të palëvizshëm dhe lëvizjet e duhura të buzëve për t’u përshtatur me një fjalim ose një këngë. Studiuesit ngarkuan një ton shembujsh në faqen e projektit dhe rezultatet duken mjaft të mira saqë mund të mashtrojnë njerëzit duke menduar se janë të vërteta.

Ndërsa lëvizjet e buzës dhe kokës në shembujt mund të duken ende pak robotike dhe të pa sinkronizuara pas inspektimit më të afërt, është ende e qartë se teknologjia mund të keqpërdoret për të krijuar lehtësisht dhe shpejt video të rreme të njerëzve të vërtetë. Vetë studiuesit janë të vetëdijshëm për këtë potencial dhe kanë vendosur të mos lëshojnë “një demonstrim në internet, API, produkt, detaje shtesë të zbatimit ose ndonjë ofertë të lidhur” derisa të jenë të sigurt se teknologjia e tyre “do të përdoret me përgjegjësi dhe në përputhje me rregulloret.”

Megjithatë, ata nuk thanë nëse po planifikojnë të zbatojnë masa të caktuara mbrojtëse për të parandaluar aktorët e këqij që t’i përdorin ato për qëllime të liga, të tilla si krijimi i fushatave pornografike të falsifikuara ose dezinformimit. Studiuesit besojnë se teknologjia e tyre sjell shumë përfitime pavarësisht potencialit të saj për keqpërdorim.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

Ata thanë se mund të përdoret për të rritur barazinë arsimore, si dhe për të përmirësuar aksesin për personat me probleme komunikimi, ndoshta duke u dhënë atyre akses në një avatar që mund të komunikojë për ta. Ai gjithashtu mund të ofrojë shoqëri dhe mbështetje terapeutike për ata që kanë nevojë, duke nënkuptuar se VASA-1 mund të shndërrohet në një mik virtual me të cilët njerëzit mund të flasin.

Sipas revistës së publikuar me njoftimin, VASA-1 është trajnuar në grupin e të dhënave VoxCeleb2, i cili përmban “mbi 1 milion thënie për 6,112 të famshëm” që janë nxjerrë nga videot në YouTube. Edhe pse mjeti ishte trajnuar në fytyra reale, ai gjithashtu funksionon në foto artistike si Mona Lisa, të cilat studiuesit i kombinuan në mënyrë argëtuese me një audio të interpretimit viral të Anne Hathaway të Paparazzi-t të Lil Wayne.

Ky shërbim AI nga Microsoft mund të shndërrojë fotot e njerëzve në video realistike ku duket sikur ata po këndojnë apo flasin

Rrjete sociale

Lajmet e fundit

BE ndalon shkatërrimin e veshjeve të pashitura nga industria e modës

Këshillat e AI po i bëjnë njerëzit më të sigurt në vetvete, ndërkohë që 3-fishojnë mundësinë e gabimeve

Kina ndalon përdorimin e chatbots si “partnerë” pas shqetësimeve të shkallës së lindshmërisë dhe varësisë që ato krijojnë

Sensori 500 herë më i hollë se fija e flokut mund të revolucionarizojë monitorimin e shëndetit

Rreth nesh

Editorial Staff:

Rrjete sociale

Lajmet e fundit

Artikuj të ngjashëm