A Decart Oasis AI Minecraftról

Az első játszható, valós idejű, nyílt világú mesterséges intelligencia modell, amely kockánkénti alapon generálja a játékmenetet, a Decart AI fejlesztette ki.

🎮 Projekt áttekintése

Az Oasis AI Minecraft, amelyet a Decart AI az Etcheddel együttműködésben fejlesztett ki, úttörő vívmányt jelent az AI játéktechnológiában. Ez egy interaktív videojáték, amelyet végpontokig egy transzformátor generál kockánként.

A hagyományos játékokkal ellentétben az Oasis képes a felhasználói billentyűzet és egér bevitelére, és valós idejű játékmenetet generál, belsőleg szimulálva a fizikát, a játékszabályokat és a grafikát. A modell megtanulta lehetővé tenni a felhasználók számára a mozgást, ugrálást, tárgyak felvételét, blokkokat törni stb., mindezt úgy, hogy közvetlenül nézi a játékmenetet.

Ez a forradalmi projekt ötvözi az élvonalbeli AI-kutatást a fejlett hardveroptimalizálással, ezzel az első lépést a bonyolultabb interaktív világokat szimuláló alapmodellek felé, amelyek potenciálisan felválthatják a klasszikus játékmotorokat az AI-vezérelt jövőben.

Műszaki építészet

🔄 Új interaktív architektúra építése

Építészeti és adatkísérletek százait futtattuk le, hogy megtaláljuk a legjobb architektúrát a gyors autoregresszív interaktív videógeneráláshoz. A hagyományos kétirányú modellekkel ellentétben az architektúránkat kifejezetten valós idejű, képkockánkénti generálásra tervezték, felhasználói beviteli feltételekkel.

Oasis's ViT + DiT architecture

Az Oasis ViT DiT architektúrája transzformátor alapú variációs autoencoderrel és felgyorsított téridő-figyelménnyel

🎯Főbb jellemzők

  • Képkockánkénti generálás a felhasználói beviteltől függ
  • Transzformátor alapú variációs automatikus kódoló (ViT VAE)
  • Felgyorsult axiális, oksági spatiotemporális figyelemmechanizmus

💡Műszaki innovációk

  • Dinamikus zaj a következtetési időben a nagyobb stabilitás érdekében
  • Optimalizált következtetési kernelek a valós idejű teljesítmény érdekében
  • További időbeli figyelemrétegek a keretkontextushoz

🧠 AI modell technológia

Az Oasis a diffúziós képzés és a transzformátormodellek kombinációját használja, amelyet a fejlett nagynyelvű modellek (LLM) ihlettek. A modell kockánként hoz létre videót, amelyet a felhasználó minden pillanatban végrehajtott műveletei határoznak meg.

Az architektúra tartalmaz egy transzformátor-alapú variációs autoencodert (ViT VAE), amely tömöríti a képméretet, és lehetővé teszi a diffúziót, hogy a magasabb szintű jellemzőkre összpontosítson, valamint egy felgyorsított axiális, ok-okozati térbeli és időbeli figyelemmechanizmust.

🎯 Diffúziós modell innováció

A kétirányú modellekkel ellentétben az Oasis autoregresszív módon állítja elő a képkockákat, és képes minden egyes képkockát a játék bemenetére kondicionálni. Ez lehetővé teszi a felhasználók számára, hogy valós időben lépjenek kapcsolatba a világgal, ahelyett, hogy csak visszamenőleg jelenítenék meg a videókat.

A modell diffúzió-kényszerítő technikákat alkalmaz, és további időbeli figyelemrétegeket tartalmaz a térbeli figyelemrétegek közé, hogy kontextust biztosítson az előző képkockákból.

⚙️ Teljesítmény

🚀 Jelenlegi képességek

  • Képkockánként 47 ms-os következtetési időt ér el a Decart szabadalmaztatott következtetési keretrendszerével
  • 360p felbontással, 20 képkocka/mp sebességgel fut NVIDIA H100 GPU-kon
  • Valós idejű webböngészős játékhoz optimalizálva minimális késleltetéssel

💫 Jövőbeli optimalizálás

  • Az Etched Sohu chipje 4K felbontású játékmenetet tesz lehetővé
  • 10-szer több felhasználót tud kiszolgálni, mint a jelenlegi hardver azonos áron és energiafogyasztás mellett
  • Célja, hogy elérhetőbbé és költséghatékonyabbá tegye a kiváló minőségű AI által generált játékokat

📊 A Sohu 10-szer több felhasználót tesz lehetővé

(Teljesítményelemzés az Oasis architektúrával, 100 milliárd paraméterre skálázva)
20 FPS
Valós idejű képkockasebesség
4K
A Sohu chip támogatja a felbontást
100x
Gyorsabb, mint a jelenlegi modellek
10x
Több felhasználót szolgálhat ki

🔮 Jövőbeli fejlesztés

🎯 Aktuális kihívások

  • A modellmemória fejlesztése a jobb részletmegtartás érdekében a képkockákon keresztül
  • A kimenet tisztaságának javítása és a homályosság csökkentése bizonyos helyzetekben
  • Élesetek és bemenetek kezelése a modell betanítási eloszlásán kívül

🌟 Jövőkép

A csapat aktívan dolgozik a modell és az adatkészletek méretezésén, valamint további optimalizálási technikák kifejlesztésén, amelyek lehetővé teszik a hatékony, nagyszabású képzést.

A játékokon túl az Oasis célja a teljes interaktív multimodális videógenerálás felé terjeszkedni, ami forradalmasíthatja a digitális tartalmakkal és szórakoztató platformokkal való interakciót.

📚 Dokumentáció