Meta ka prezantuar një shërbim të ri të quajtur Make-A-Video, i cili është i fuqizuar nga inteligjenca artificiale dhe arrin të krijojë video duke u bazuar në një tekst të shkruar, në formë të ngjashme me DALL-E dhe Stable Diffusion.
Ky shërbim mundet gjithashtu të krijojë një model të ri të videove ekzistuese, por për momentin është ende në fazë testuese. Në faqjen e dedikuar për Make-A-Video, Meta tregon disa shembuj ku videot janë gjeneruar nga teksti, si përshembull një “arush që vizaton një portret” dhe një “çift i ri që ecën në shi”, duke shfaqur aftësitë e teknologjisë.
Arsyja se përse Make-A-Video arriti shumë kohë para parashikimeve të ekspertëve është se kjo teknologji përdor punën pre-ekzistuese të gjeneruar nga DALL-E. Meta ka prezantuar gjithashtu modelin e saj AI text-to-image të quajtur Make-A-Scene.
Në vend që të trajnonte modelin Make-A-Video mbi të dhënat e videove në bazë të titullit, Meta përdori të dhënat nga krijimi i imazheve dhe aplikoi të dhëna trajnimi për video në mënyrë që modeli të mësojë se ku një tekst apo imazh mund të ekzistojë në kohë dhe hapësirë. Në këtë mënyrë më pas parashikohet se çfarë vjen pas imazhit dhe shfaqet video e shkurtër.
Ende nuk është bërë e ditur se kur Meta do ta bëjë të disponueshme për publikun këtë shërbim.