DeepMind, organizata kërkimore e Google për AI, ka prezantuar një model që mund të gjenerojë një shumëllojshmëri “të pafundme” të botëve 3D interaktive.
I quajtur Genie 2, modeli mund të gjenerojë një skenë interaktive në kohë reale nga një imazh i vetëm apo përshkrim teksti (p.sh. “një robot i lezetshëm humanoid në pyll“). Në këtë mënyrë, është e ngjashme me modelet në zhvillim nga kompania e Fei-Fei Li, World Labs dhe startup-i izraelit Decart.
DeepMind pretendon se Genie 2 mund të gjenerojë një “larmi të madhe botësh të pasura 3D“, duke përfshirë dhe botët në të cilat përdoruesit mund të kërcejnë apo notojnë duke përdorur një maus ose tastierë. I trajnuar në video, modeli është në gjendje të simulojë ndërveprimet e objekteve, animacionet, ndriçimin, fizikën, reflektimet dhe sjelljen e “NPC”. Shumë nga simulimet e Genie 2 duken si video-lojëra tepër cilësore- dhe arsyeja mund të jetë se të dhënat e trajnimit të modelit përmbajnë tituj të njohur.
Por DeepMind, si shumë laboratorë të AI, nuk do të zbulonte shumë detaje në lidhje me metodat e tij të burimit të të dhënave, për arsye të konkurrencës. DeepMind – duke qenë një degë e Google – ka akses të papenguar në YouTube dhe Google ka lënë të kuptohet më parë se ToS i jep leje të përdorë videot e YouTube për trajnimin e modeleve.
Por a po krijon Genie 2 në thelb kopje të paautorizuara të videolojërave që “shikoi”?
Këtë e vendosin gjykatat. DeepMind thotë se Genie 2 mund të gjenerojë botë të qëndrueshme me perspektiva të ndryshme, si pamje në vetën e parë dhe izometrike, deri në një minutë, ku shumica zgjat 10 deri në 20 sekonda.
“Genie 2 i përgjigjet në mënyrë inteligjente veprimeve të kryera duke shtypur butonat në tastierë, duke identifikuar personazhin dhe duke e lëvizur saktë”, shkroi DeepMind në një postim në blog. “Për shembull, modeli ynë [mund] të kuptojë se tastet e shigjetave duhet të lëvizin një robot dhe jo pemët apo retë.”