Den första spelbara AI-modellen i realtid med öppen värld som genererar gameplay på en bild-för-bild-basis, utvecklad av Decart AI.
Oasis AI Minecraft, utvecklat av Decart AI i samarbete med Etched, representerar en banbrytande prestation inom AI-spelteknik. Det är ett interaktivt videospel som genereras från början till slut av en transformator på en bild-för-bild-basis.
Till skillnad från traditionella spel tar Oasis in användarens tangentbord och mus och genererar spel i realtid, internt simulerar fysik, spelregler och grafik. Modellen lärde sig att tillåta användare att flytta runt, hoppa, plocka upp föremål, bryta block och mer, allt genom att titta på spelet direkt.
Detta revolutionerande projekt kombinerar banbrytande AI-forskning med avancerad hårdvaruoptimering, vilket markerar det första steget mot grundläggande modeller som simulerar mer komplexa interaktiva världar, som potentiellt kan ersätta klassiska spelmotorer i en AI-driven framtid.
Vi körde hundratals arkitektur- och dataexperiment för att identifiera den bästa arkitekturen för snabb autoregressiv interaktiv videogenerering. Till skillnad från traditionella dubbelriktade modeller är vår arkitektur specifikt designad för realtidsgenerering bild-för-bildruta med användarinmatningskonditionering.
Oasis ViT DiT-arkitektur med transformatorbaserad variationsautokodare och accelererad spatiotemporal uppmärksamhet
Oasis använder en kombination av diffusionsträning och transformatormodeller, inspirerade av avancerade stora språkmodeller (LLM). Modellen genererar video på en bildruta-för-bildruta-basis, betingad av användaråtgärder vid varje ögonblick.
Arkitekturen har en transformatorbaserad variationsautokodare (ViT VAE) för att komprimera bildstorleken och möjliggöra för diffusionen att fokusera på egenskaper på högre nivå, tillsammans med en accelererad axiell, kausal spatiotemporal uppmärksamhetsmekanism.
Till skillnad från dubbelriktade modeller genererar Oasis bildrutor autoregressivt, med möjligheten att anpassa varje bildruta på spelinmatning. Detta gör det möjligt för användare att interagera med världen i realtid snarare än att bara rendera videor retroaktivt.
Modellen använder tekniker för diffusion-forcering och inkluderar ytterligare tidsmässiga uppmärksamhetsskikt interfolierade mellan rumsliga uppmärksamhetsskikt för att ge sammanhang från tidigare bildrutor.
Teamet arbetar aktivt med att skala modellen och datauppsättningarna, tillsammans med att utveckla ytterligare optimeringstekniker för att möjliggöra effektiv storskalig utbildning.
Utöver spel, siktar Oasis på att expandera till fullständig interaktiv multimodal videogenerering, vilket potentiellt revolutionerar hur vi interagerar med digitalt innehåll och underhållningsplattformar.