Az első játszható, valós idejű, nyílt világú mesterséges intelligencia modell, amely kockánkénti alapon generálja a játékmenetet, a Decart AI fejlesztette ki.
Az Oasis AI Minecraft, amelyet a Decart AI az Etcheddel együttműködésben fejlesztett ki, úttörő vívmányt jelent az AI játéktechnológiában. Ez egy interaktív videojáték, amelyet végpontokig egy transzformátor generál kockánként.
A hagyományos játékokkal ellentétben az Oasis képes a felhasználói billentyűzet és egér bevitelére, és valós idejű játékmenetet generál, belsőleg szimulálva a fizikát, a játékszabályokat és a grafikát. A modell megtanulta lehetővé tenni a felhasználók számára a mozgást, ugrálást, tárgyak felvételét, blokkokat törni stb., mindezt úgy, hogy közvetlenül nézi a játékmenetet.
Ez a forradalmi projekt ötvözi az élvonalbeli AI-kutatást a fejlett hardveroptimalizálással, ezzel az első lépést a bonyolultabb interaktív világokat szimuláló alapmodellek felé, amelyek potenciálisan felválthatják a klasszikus játékmotorokat az AI-vezérelt jövőben.
Építészeti és adatkísérletek százait futtattuk le, hogy megtaláljuk a legjobb architektúrát a gyors autoregresszív interaktív videógeneráláshoz. A hagyományos kétirányú modellekkel ellentétben az architektúránkat kifejezetten valós idejű, képkockánkénti generálásra tervezték, felhasználói beviteli feltételekkel.
Az Oasis ViT DiT architektúrája transzformátor alapú variációs autoencoderrel és felgyorsított téridő-figyelménnyel
Az Oasis a diffúziós képzés és a transzformátormodellek kombinációját használja, amelyet a fejlett nagynyelvű modellek (LLM) ihlettek. A modell kockánként hoz létre videót, amelyet a felhasználó minden pillanatban végrehajtott műveletei határoznak meg.
Az architektúra tartalmaz egy transzformátor-alapú variációs autoencodert (ViT VAE), amely tömöríti a képméretet, és lehetővé teszi a diffúziót, hogy a magasabb szintű jellemzőkre összpontosítson, valamint egy felgyorsított axiális, ok-okozati térbeli és időbeli figyelemmechanizmust.
A kétirányú modellekkel ellentétben az Oasis autoregresszív módon állítja elő a képkockákat, és képes minden egyes képkockát a játék bemenetére kondicionálni. Ez lehetővé teszi a felhasználók számára, hogy valós időben lépjenek kapcsolatba a világgal, ahelyett, hogy csak visszamenőleg jelenítenék meg a videókat.
A modell diffúzió-kényszerítő technikákat alkalmaz, és további időbeli figyelemrétegeket tartalmaz a térbeli figyelemrétegek közé, hogy kontextust biztosítson az előző képkockákból.
A csapat aktívan dolgozik a modell és az adatkészletek méretezésén, valamint további optimalizálási technikák kifejlesztésén, amelyek lehetővé teszik a hatékony, nagyszabású képzést.
A játékokon túl az Oasis célja a teljes interaktív multimodális videógenerálás felé terjeszkedni, ami forradalmasíthatja a digitális tartalmakkal és szórakoztató platformokkal való interakciót.