Om Decart Oasis AI Minecraft

Den første spillbare, sanntids, åpne verden AI-modellen som genererer gameplay på en ramme-for-ramme-basis, utviklet av Decart AI.

🎮 Prosjektoversikt

Oasis AI Minecraft, utviklet av Decart AI i samarbeid med Etched, representerer en banebrytende prestasjon innen AI-spillteknologi. Det er et interaktivt videospill generert ende-til-ende av en transformator på en bilde-for-bilde-basis.

I motsetning til tradisjonelle spill, tar Oasis inn brukertastatur og mus og genererer sanntidsspilling, internt simulerer fysikk, spilleregler og grafikk. Modellen lærte å tillate brukere å bevege seg rundt, hoppe, plukke opp gjenstander, bryte blokker og mer, alt ved å se spillingen direkte.

Dette revolusjonerende prosjektet kombinerer banebrytende AI-forskning med avansert maskinvareoptimalisering, og markerer det første skrittet mot grunnleggende modeller som simulerer mer komplekse interaktive verdener, som potensielt kan erstatte klassiske spillmotorer i en AI-drevet fremtid.

Teknisk arkitektur

🔄 Bygge en ny interaktiv arkitektur

Vi kjørte hundrevis av arkitektur- og dataeksperimenter for å identifisere den beste arkitekturen for rask autoregressiv interaktiv videogenerering. I motsetning til tradisjonelle toveismodeller, er arkitekturen vår spesielt designet for sanntid, frame-by-frame-generering med brukerinndatabehandling.

Oasis's ViT + DiT architecture

Oasis sin ViT DiT-arkitektur med transformatorbasert variasjonsautokoder og akselerert spatiotemporal oppmerksomhet

🎯Nøkkelfunksjoner

  • Frame-by-frame generasjon betinget av brukerinndata
  • Transformatorbasert variasjonsautokoder (ViT VAE)
  • Akselerert aksial, kausal spatiotemporal oppmerksomhetsmekanisme

💡Tekniske innovasjoner

  • Dynamisk støy ved slutningstid for økt stabilitet
  • Optimaliserte slutningskjerner for sanntidsytelse
  • Ytterligere tidsmessige oppmerksomhetslag for rammekontekst

🧠 AI-modellteknologi

Oasis bruker en kombinasjon av diffusjonstrening og transformatormodeller, inspirert av avanserte storspråklige modeller (LLM). Modellen genererer video på en bilde-for-bilde-basis, betinget av brukerhandlinger på hvert øyeblikk.

Arkitekturen har en transformatorbasert variasjonsautokoder (ViT VAE) for å komprimere bildestørrelsen og gjøre det mulig for diffusjonen å fokusere på egenskaper på høyere nivå, sammen med en akselerert aksial, kausal spatiotemporal oppmerksomhetsmekanisme.

🎯 Diffusjonsmodellinnovasjon

I motsetning til toveismodeller, genererer Oasis frames autoregressivt, med muligheten til å kondisjonere hver frame på spillinndata. Dette gjør det mulig for brukere å samhandle med verden i sanntid i stedet for bare å gjengi videoer med tilbakevirkende kraft.

Modellen benytter diffusjons-tvingende teknikker og inkluderer ytterligere tidsmessige oppmerksomhetslag flettet inn mellom romlige oppmerksomhetslag for å gi kontekst fra tidligere rammer.

⚙️ Ytelse

🚀 Nåværende evner

  • Oppnår 47 ms slutningstid per ramme ved å bruke Decarts proprietære slutningsrammeverk
  • Kjører med 360p-oppløsning ved 20fps på NVIDIA H100 GPUer
  • Optimalisert for nettleserspilling i sanntid med minimal ventetid

💫 Fremtidige optimaliseringer

  • Etcheds Sohu-brikke vil muliggjøre spill i 4K-oppløsning
  • Kan betjene 10 ganger flere brukere enn dagens maskinvare til samme pris og strømforbruk
  • Tar sikte på å gjøre høykvalitets AI-generert spill mer tilgjengelig og kostnadseffektivt

📊 Sohu muliggjør 10x flere brukere

(Ytelsesanalyse ved bruk av Oasis-arkitektur skalert opp til 100B parametere)
20 FPS
Bildefrekvens i sanntid
4K
Sohu Chip støtter oppløsning
100x
Raskere enn nåværende modeller
10x
Kan betjene flere brukere

🔮 Fremtidig utvikling

🎯 Aktuelle utfordringer

  • Forbedrer modellminne for bedre detaljoppbevaring på tvers av rammer
  • Forbedrer klarhet i utdataene og reduserer uklarhet i visse situasjoner
  • Håndtering av kantsaker og innspill utenfor modellens opplæringsdistribusjon

🌟 Fremtidsvisjon

Teamet jobber aktivt med å skalere modellen og datasettene, i tillegg til å utvikle ytterligere optimaliseringsteknikker for å muliggjøre effektiv opplæring i stor skala.

Utover spill, har Oasis som mål å utvide til full interaktiv multimodal videogenerering, som potensielt revolusjonerer hvordan vi samhandler med digitalt innhold og underholdningsplattformer.

📚 Dokumentasjon