Over Decart Oasis AI Minecraft

Het eerste speelbare, realtime AI-model in de open wereld dat gameplay frame voor frame genereert, ontwikkeld door Decart AI.

🎮 Projectoverzicht

Oasis AI Minecraft, ontwikkeld door Decart AI in samenwerking met Etched, vertegenwoordigt een baanbrekende prestatie op het gebied van AI-gamingtechnologie. Het is een interactief videospel dat frame voor frame end-to-end wordt gegenereerd door een transformator.

In tegenstelling tot traditionele games neemt Oasis de toetsenbord- en muisinvoer van gebruikers over en genereert realtime gameplay, waarbij intern de fysica, spelregels en grafische afbeeldingen worden gesimuleerd. Het model heeft geleerd dat gebruikers kunnen bewegen, springen, items kunnen oppakken, blokken kunnen breken en meer, allemaal door de gameplay rechtstreeks te bekijken.

Dit revolutionaire project combineert baanbrekend AI-onderzoek met geavanceerde hardware-optimalisatie en markeert de eerste stap naar fundamentele modellen die complexere interactieve werelden simuleren en mogelijk klassieke game-engines vervangen in een AI-gestuurde toekomst.

Technische Architectuur

🔄 Bouwen aan een nieuwe interactieve architectuur

We hebben honderden architectuur- en data-experimenten uitgevoerd om de beste architectuur voor snelle autoregressieve interactieve videogeneratie te identificeren. In tegenstelling tot traditionele bidirectionele modellen is onze architectuur specifiek ontworpen voor real-time, frame-voor-frame generatie met conditionering van gebruikersinvoer.

Oasis's ViT + DiT architecture

Oasis's ViT DiT-architectuur met op Transformer gebaseerde variabele auto-encoder en versnelde spatiotemporele aandacht

🎯Belangrijkste kenmerken

  • Frame-voor-frame generatie afhankelijk van gebruikersinvoer
  • Op transformator gebaseerde variatie-autoencoder (ViT VAE)
  • Versneld axiaal, causaal spatiotemporeel aandachtsmechanisme

💡Technische innovaties

  • Dynamische ruis op het inferentietijdstip voor meer stabiliteit
  • Geoptimaliseerde inferentiekernels voor realtime prestaties
  • Extra temporele aandachtslagen voor framecontext

🧠 AI-modeltechnologie

Oasis maakt gebruik van een combinatie van diffusietraining en transformatormodellen, geïnspireerd door geavanceerde grote taalmodellen (LLM's). Het model genereert video op frame-voor-frame-basis, geconditioneerd door gebruikersacties op elk moment.

De architectuur is voorzien van een op Transformer gebaseerde variatie-autoencoder (ViT VAE) om de beeldgrootte te comprimeren en de diffusie in staat te stellen zich te concentreren op kenmerken op een hoger niveau, samen met een versneld axiaal, causaal spatiotemporeel aandachtsmechanisme.

🎯 Verspreidingsmodelinnovatie

In tegenstelling tot bidirectionele modellen genereert Oasis frames automatisch regressief, met de mogelijkheid om elk frame te conditioneren op basis van game-invoer. Hierdoor kunnen gebruikers in realtime met de wereld communiceren in plaats van alleen maar video's met terugwerkende kracht weer te geven.

Het model maakt gebruik van diffusieforceringstechnieken en bevat extra temporele aandachtslagen die tussen ruimtelijke aandachtslagen zijn geweven om context uit eerdere frames te bieden.

⚙️ Prestatie

🚀 Huidige mogelijkheden

  • Bereikt een inferentietijd van 47 ms per frame met behulp van het eigen inferentieframework van Decart
  • Werkt met een resolutie van 360p bij 20 fps op NVIDIA H100 GPU's
  • Geoptimaliseerd voor realtime webbrowser-gameplay met minimale latentie

💫 Toekomstige optimalisaties

  • De Sohu-chip van Etched maakt gameplay in 4K-resolutie mogelijk
  • Kan 10x meer gebruikers bedienen dan de huidige hardware, tegen dezelfde prijs en hetzelfde stroomverbruik
  • Het doel is om door AI gegenereerde gaming van hoge kwaliteit toegankelijker en kosteneffectiever te maken

📊 Sohu maakt 10x meer gebruikers mogelijk

(Prestatieanalyse met behulp van Oasis-architectuur opgeschaald tot 100 miljard parameters)
20 FPS
Realtime framesnelheid
4K
Sohu-chip ondersteunt resolutie
100x
Sneller dan huidige modellen
10x
Kan meer gebruikers bedienen

🔮 Toekomstige ontwikkeling

🎯 Huidige uitdagingen

  • Verbetering van het modelgeheugen voor beter behoud van details over frames heen
  • Verbetering van de helderheid van de uitvoer en vermindering van wazigheid in bepaalde situaties
  • Het afhandelen van randgevallen en invoer buiten de trainingsdistributie van het model

🌟 Toekomstvisie

Het team werkt actief aan het schalen van het model en de datasets, naast het ontwikkelen van aanvullende optimalisatietechnieken om efficiënte grootschalige training mogelijk te maken.

Naast gaming wil Oasis zich uitbreiden naar volledig interactieve multimodale videogeneratie, wat mogelijk een revolutie teweegbrengt in de manier waarop we omgaan met digitale inhoud en entertainmentplatforms.

📚 Documentatie