Om Decart Oasis AI Minecraft

🎮 Projektöversikt

Oasis AI Minecraft, utvecklat av Decart AI i samarbete med Etched, representerar en banbrytande prestation inom AI-spelteknik. Det är ett interaktivt videospel som genereras från början till slut av en transformator på en bild-för-bild-basis.

Till skillnad från traditionella spel tar Oasis in användarens tangentbord och mus och genererar spel i realtid, internt simulerar fysik, spelregler och grafik. Modellen lärde sig att tillåta användare att flytta runt, hoppa, plocka upp föremål, bryta block och mer, allt genom att titta på spelet direkt.

Detta revolutionerande projekt kombinerar banbrytande AI-forskning med avancerad hårdvaruoptimering, vilket markerar det första steget mot grundläggande modeller som simulerar mer komplexa interaktiva världar, som potentiellt kan ersätta klassiska spelmotorer i en AI-driven framtid.

⚡ Teknisk arkitektur

🔄 Bygga en ny interaktiv arkitektur

Vi körde hundratals arkitektur- och dataexperiment för att identifiera den bästa arkitekturen för snabb autoregressiv interaktiv videogenerering. Till skillnad från traditionella dubbelriktade modeller är vår arkitektur specifikt designad för realtidsgenerering bild-för-bildruta med användarinmatningskonditionering.

Oasis ViT DiT-arkitektur med transformatorbaserad variationsautokodare och accelererad spatiotemporal uppmärksamhet

🎯Nyckelfunktioner

Frame-by-frame-generering beroende på användarinmatning
Transformatorbaserad variationsautokodare (ViT VAE)
Accelererad axiell, kausal spatiotemporal uppmärksamhetsmekanism

💡Tekniska innovationer

Dynamiskt brus vid slutledningstid för ökad stabilitet
Optimerade slutledningskärnor för realtidsprestanda
Ytterligare tidsmässiga uppmärksamhetslager för ramkontext

🧠 AI modellteknik

Oasis använder en kombination av diffusionsträning och transformatormodeller, inspirerade av avancerade stora språkmodeller (LLM). Modellen genererar video på en bildruta-för-bildruta-basis, betingad av användaråtgärder vid varje ögonblick.

Arkitekturen har en transformatorbaserad variationsautokodare (ViT VAE) för att komprimera bildstorleken och möjliggöra för diffusionen att fokusera på egenskaper på högre nivå, tillsammans med en accelererad axiell, kausal spatiotemporal uppmärksamhetsmekanism.

🎯 Diffusionsmodellinnovation

Till skillnad från dubbelriktade modeller genererar Oasis bildrutor autoregressivt, med möjligheten att anpassa varje bildruta på spelinmatning. Detta gör det möjligt för användare att interagera med världen i realtid snarare än att bara rendera videor retroaktivt.

Modellen använder tekniker för diffusion-forcering och inkluderar ytterligare tidsmässiga uppmärksamhetsskikt interfolierade mellan rumsliga uppmärksamhetsskikt för att ge sammanhang från tidigare bildrutor.

⚙️ Prestanda

🚀 Nuvarande kapacitet

Uppnår 47ms slutledningstid per bildruta med hjälp av Decarts proprietära inferensramverk
Körs med 360p-upplösning vid 20 fps på NVIDIA H100 GPU:er
Optimerad för webbläsarspel i realtid med minimal latens

💫 Framtida optimeringar

Etcheds Sohu-chip kommer att möjliggöra 4K-upplösning
Kan betjäna 10 gånger fler användare än nuvarande hårdvara till samma pris och strömförbrukning
Syftar till att göra högkvalitativt AI-genererat spel mer tillgängligt och kostnadseffektivt

📊 Sohu möjliggör 10x fler användare

(Prestandaanalys med Oasis-arkitektur skalad upp till 100B params)

20 FPS

Bildfrekvens i realtid

Sohu Chip stöder upplösning

100x

Snabbare än nuvarande modeller

10x

Kan tjäna fler användare

🔮 Framtida utveckling

🎯 Aktuella utmaningar

Förbättrar modellminne för bättre detaljbevarande över ramar
Förbättra utskriftstydlighet och minska grumlighet i vissa situationer
Hantering av kantärenden och input utanför modellens utbildningsdistribution

🌟 Framtidsvision

Teamet arbetar aktivt med att skala modellen och datauppsättningarna, tillsammans med att utveckla ytterligare optimeringstekniker för att möjliggöra effektiv storskalig utbildning.

Utöver spel, siktar Oasis på att expandera till fullständig interaktiv multimodal videogenerering, vilket potentiellt revolutionerar hur vi interagerar med digitalt innehåll och underhållningsplattformar.