Om Decart Oasis AI Minecraft

Den første spilbare, realtime, åbne verden AI-model, der genererer gameplay på et billede-for-billede, udviklet af Decart AI.

🎮 Projektoversigt

Oasis AI Minecraft, udviklet af Decart AI i samarbejde med Etched, repræsenterer en banebrydende præstation inden for AI-spilteknologi. Det er et interaktivt videospil, der genereres ende-til-ende af en transformer på et billede-til-billede.

I modsætning til traditionelle spil tager Oasis brugerens tastatur og mus input og genererer real-time gameplay, der internt simulerer fysik, spilleregler og grafik. Modellen lærte at tillade brugere at bevæge sig rundt, hoppe, samle genstande op, bryde blokke og mere, alt sammen ved at se gameplay direkte.

Dette revolutionerende projekt kombinerer banebrydende AI-forskning med avanceret hardwareoptimering, hvilket markerer det første skridt mod grundlæggende modeller, der simulerer mere komplekse interaktive verdener, og som potentielt erstatter klassiske spilmotorer i en AI-drevet fremtid.

Teknisk arkitektur

🔄 Opbygning af en ny interaktiv arkitektur

Vi kørte hundredvis af arkitektur- og dataeksperimenter for at identificere den bedste arkitektur til hurtig autoregressiv interaktiv videogenerering. I modsætning til traditionelle tovejsmodeller er vores arkitektur specifikt designet til real-time, frame-by-frame-generering med brugerinput-konditionering.

Oasis's ViT + DiT architecture

Oasis's ViT DiT-arkitektur byder på Transformer-baseret variationsautoencoder og accelereret spatiotemporal opmærksomhed

🎯Nøglefunktioner

  • Frame-by-frame-generering betinget af brugerinput
  • Transformer-baseret variationsautoencoder (ViT VAE)
  • Accelereret aksial, kausal spatiotemporal opmærksomhedsmekanisme

💡Tekniske innovationer

  • Dynamisk støj ved inferenstid for øget stabilitet
  • Optimerede inferenskerner til realtidsydelse
  • Yderligere tidsmæssige opmærksomhedslag til rammekontekst

🧠 AI-modelteknologi

Oasis anvender en kombination af diffusionstræning og transformatormodeller, inspireret af avancerede store sprogmodeller (LLM'er). Modellen genererer video på et billede-for-billede, betinget af brugerhandlinger på hvert øjeblik.

Arkitekturen har en transformer-baseret variationsautoencoder (ViT VAE) for at komprimere billedstørrelsen og gøre det muligt for diffusionen at fokusere på højere niveau karakteristika sammen med en accelereret aksial, kausal spatiotemporal opmærksomhedsmekanisme.

🎯 Innovation af diffusionsmodel

I modsætning til tovejsmodeller genererer Oasis frames autoregressivt, med evnen til at betinge hvert enkelt billede på spilinput. Dette gør det muligt for brugere at interagere med verden i realtid i stedet for blot at gengive videoer med tilbagevirkende kraft.

Modellen anvender diffusions-forcing teknikker og inkluderer yderligere tidsmæssige opmærksomhedslag indflettet mellem rumlige opmærksomhedslag for at give kontekst fra tidligere frames.

⚙️ Præstation

🚀 Nuværende muligheder

  • Opnår 47ms inferenstid pr. frame ved hjælp af Decarts proprietære inferensramme
  • Kører ved 360p opløsning ved 20fps på NVIDIA H100 GPU'er
  • Optimeret til webbrowser-gameplay i realtid med minimal latenstid

💫 Fremtidige optimeringer

  • Etcheds Sohu-chip vil muliggøre gameplay i 4K-opløsning
  • Kan betjene 10 gange flere brugere end nuværende hardware til samme pris og strømforbrug
  • Sigter mod at gøre AI-genereret spil af høj kvalitet mere tilgængeligt og omkostningseffektivt

📊 Sohu muliggør 10x flere brugere

(Performanceanalyse ved hjælp af Oasis-arkitektur skaleret op til 100B parametre)
20 FPS
Billedhastighed i realtid
4K
Sohu Chip understøtter opløsning
100x
Hurtigere end nuværende modeller
10x
Kan betjene flere brugere

🔮 Fremtidig udvikling

🎯 Aktuelle udfordringer

  • Forbedring af modelhukommelsen for bedre detaljebevarelse på tværs af rammer
  • Forbedring af outputklarhed og reduktion af uklarhed i visse situationer
  • Håndtering af kantsager og input uden for modellens træningsdistribution

🌟 Fremtidsvision

Teamet arbejder aktivt på at skalere modellen og datasættene, sideløbende med at udvikle yderligere optimeringsteknikker for at muliggøre effektiv træning i stor skala.

Ud over spil, sigter Oasis på at udvide til fuld interaktiv multimodal videogenerering, hvilket potentielt revolutionerer, hvordan vi interagerer med digitalt indhold og underholdningsplatforme.

📚 Dokumentation