Den første spillbare, sanntids, åpne verden AI-modellen som genererer gameplay på en ramme-for-ramme-basis, utviklet av Decart AI.
Oasis AI Minecraft, utviklet av Decart AI i samarbeid med Etched, representerer en banebrytende prestasjon innen AI-spillteknologi. Det er et interaktivt videospill generert ende-til-ende av en transformator på en bilde-for-bilde-basis.
I motsetning til tradisjonelle spill, tar Oasis inn brukertastatur og mus og genererer sanntidsspilling, internt simulerer fysikk, spilleregler og grafikk. Modellen lærte å tillate brukere å bevege seg rundt, hoppe, plukke opp gjenstander, bryte blokker og mer, alt ved å se spillingen direkte.
Dette revolusjonerende prosjektet kombinerer banebrytende AI-forskning med avansert maskinvareoptimalisering, og markerer det første skrittet mot grunnleggende modeller som simulerer mer komplekse interaktive verdener, som potensielt kan erstatte klassiske spillmotorer i en AI-drevet fremtid.
Vi kjørte hundrevis av arkitektur- og dataeksperimenter for å identifisere den beste arkitekturen for rask autoregressiv interaktiv videogenerering. I motsetning til tradisjonelle toveismodeller, er arkitekturen vår spesielt designet for sanntid, frame-by-frame-generering med brukerinndatabehandling.
Oasis sin ViT DiT-arkitektur med transformatorbasert variasjonsautokoder og akselerert spatiotemporal oppmerksomhet
Oasis bruker en kombinasjon av diffusjonstrening og transformatormodeller, inspirert av avanserte storspråklige modeller (LLM). Modellen genererer video på en bilde-for-bilde-basis, betinget av brukerhandlinger på hvert øyeblikk.
Arkitekturen har en transformatorbasert variasjonsautokoder (ViT VAE) for å komprimere bildestørrelsen og gjøre det mulig for diffusjonen å fokusere på egenskaper på høyere nivå, sammen med en akselerert aksial, kausal spatiotemporal oppmerksomhetsmekanisme.
I motsetning til toveismodeller, genererer Oasis frames autoregressivt, med muligheten til å kondisjonere hver frame på spillinndata. Dette gjør det mulig for brukere å samhandle med verden i sanntid i stedet for bare å gjengi videoer med tilbakevirkende kraft.
Modellen benytter diffusjons-tvingende teknikker og inkluderer ytterligere tidsmessige oppmerksomhetslag flettet inn mellom romlige oppmerksomhetslag for å gi kontekst fra tidligere rammer.
Teamet jobber aktivt med å skalere modellen og datasettene, i tillegg til å utvikle ytterligere optimaliseringsteknikker for å muliggjøre effektiv opplæring i stor skala.
Utover spill, har Oasis som mål å utvide til full interaktiv multimodal videogenerering, som potensielt revolusjonerer hvordan vi samhandler med digitalt innhold og underholdningsplattformer.