Om Decart Oasis AI Minecraft

Den första spelbara AI-modellen i realtid med öppen värld som genererar gameplay på en bild-för-bild-basis, utvecklad av Decart AI.

🎮 Projektöversikt

Oasis AI Minecraft, utvecklat av Decart AI i samarbete med Etched, representerar en banbrytande prestation inom AI-spelteknik. Det är ett interaktivt videospel som genereras från början till slut av en transformator på en bild-för-bild-basis.

Till skillnad från traditionella spel tar Oasis in användarens tangentbord och mus och genererar spel i realtid, internt simulerar fysik, spelregler och grafik. Modellen lärde sig att tillåta användare att flytta runt, hoppa, plocka upp föremål, bryta block och mer, allt genom att titta på spelet direkt.

Detta revolutionerande projekt kombinerar banbrytande AI-forskning med avancerad hårdvaruoptimering, vilket markerar det första steget mot grundläggande modeller som simulerar mer komplexa interaktiva världar, som potentiellt kan ersätta klassiska spelmotorer i en AI-driven framtid.

Teknisk arkitektur

🔄 Bygga en ny interaktiv arkitektur

Vi körde hundratals arkitektur- och dataexperiment för att identifiera den bästa arkitekturen för snabb autoregressiv interaktiv videogenerering. Till skillnad från traditionella dubbelriktade modeller är vår arkitektur specifikt designad för realtidsgenerering bild-för-bildruta med användarinmatningskonditionering.

Oasis's ViT + DiT architecture

Oasis ViT DiT-arkitektur med transformatorbaserad variationsautokodare och accelererad spatiotemporal uppmärksamhet

🎯Nyckelfunktioner

  • Frame-by-frame-generering beroende på användarinmatning
  • Transformatorbaserad variationsautokodare (ViT VAE)
  • Accelererad axiell, kausal spatiotemporal uppmärksamhetsmekanism

💡Tekniska innovationer

  • Dynamiskt brus vid slutledningstid för ökad stabilitet
  • Optimerade slutledningskärnor för realtidsprestanda
  • Ytterligare tidsmässiga uppmärksamhetslager för ramkontext

🧠 AI modellteknik

Oasis använder en kombination av diffusionsträning och transformatormodeller, inspirerade av avancerade stora språkmodeller (LLM). Modellen genererar video på en bildruta-för-bildruta-basis, betingad av användaråtgärder vid varje ögonblick.

Arkitekturen har en transformatorbaserad variationsautokodare (ViT VAE) för att komprimera bildstorleken och möjliggöra för diffusionen att fokusera på egenskaper på högre nivå, tillsammans med en accelererad axiell, kausal spatiotemporal uppmärksamhetsmekanism.

🎯 Diffusionsmodellinnovation

Till skillnad från dubbelriktade modeller genererar Oasis bildrutor autoregressivt, med möjligheten att anpassa varje bildruta på spelinmatning. Detta gör det möjligt för användare att interagera med världen i realtid snarare än att bara rendera videor retroaktivt.

Modellen använder tekniker för diffusion-forcering och inkluderar ytterligare tidsmässiga uppmärksamhetsskikt interfolierade mellan rumsliga uppmärksamhetsskikt för att ge sammanhang från tidigare bildrutor.

⚙️ Prestanda

🚀 Nuvarande kapacitet

  • Uppnår 47ms slutledningstid per bildruta med hjälp av Decarts proprietära inferensramverk
  • Körs med 360p-upplösning vid 20 fps på NVIDIA H100 GPU:er
  • Optimerad för webbläsarspel i realtid med minimal latens

💫 Framtida optimeringar

  • Etcheds Sohu-chip kommer att möjliggöra 4K-upplösning
  • Kan betjäna 10 gånger fler användare än nuvarande hårdvara till samma pris och strömförbrukning
  • Syftar till att göra högkvalitativt AI-genererat spel mer tillgängligt och kostnadseffektivt

📊 Sohu möjliggör 10x fler användare

(Prestandaanalys med Oasis-arkitektur skalad upp till 100B params)
20 FPS
Bildfrekvens i realtid
4K
Sohu Chip stöder upplösning
100x
Snabbare än nuvarande modeller
10x
Kan tjäna fler användare

🔮 Framtida utveckling

🎯 Aktuella utmaningar

  • Förbättrar modellminne för bättre detaljbevarande över ramar
  • Förbättra utskriftstydlighet och minska grumlighet i vissa situationer
  • Hantering av kantärenden och input utanför modellens utbildningsdistribution

🌟 Framtidsvision

Teamet arbetar aktivt med att skala modellen och datauppsättningarna, tillsammans med att utveckla ytterligare optimeringstekniker för att möjliggöra effektiv storskalig utbildning.

Utöver spel, siktar Oasis på att expandera till fullständig interaktiv multimodal videogenerering, vilket potentiellt revolutionerar hur vi interagerar med digitalt innehåll och underhållningsplattformar.

📚 Dokumentation