Het eerste speelbare, realtime AI-model in de open wereld dat gameplay frame voor frame genereert, ontwikkeld door Decart AI.
Oasis AI Minecraft, ontwikkeld door Decart AI in samenwerking met Etched, vertegenwoordigt een baanbrekende prestatie op het gebied van AI-gamingtechnologie. Het is een interactief videospel dat frame voor frame end-to-end wordt gegenereerd door een transformator.
In tegenstelling tot traditionele games neemt Oasis de toetsenbord- en muisinvoer van gebruikers over en genereert realtime gameplay, waarbij intern de fysica, spelregels en grafische afbeeldingen worden gesimuleerd. Het model heeft geleerd dat gebruikers kunnen bewegen, springen, items kunnen oppakken, blokken kunnen breken en meer, allemaal door de gameplay rechtstreeks te bekijken.
Dit revolutionaire project combineert baanbrekend AI-onderzoek met geavanceerde hardware-optimalisatie en markeert de eerste stap naar fundamentele modellen die complexere interactieve werelden simuleren en mogelijk klassieke game-engines vervangen in een AI-gestuurde toekomst.
We hebben honderden architectuur- en data-experimenten uitgevoerd om de beste architectuur voor snelle autoregressieve interactieve videogeneratie te identificeren. In tegenstelling tot traditionele bidirectionele modellen is onze architectuur specifiek ontworpen voor real-time, frame-voor-frame generatie met conditionering van gebruikersinvoer.
Oasis's ViT DiT-architectuur met op Transformer gebaseerde variabele auto-encoder en versnelde spatiotemporele aandacht
Oasis maakt gebruik van een combinatie van diffusietraining en transformatormodellen, geïnspireerd door geavanceerde grote taalmodellen (LLM's). Het model genereert video op frame-voor-frame-basis, geconditioneerd door gebruikersacties op elk moment.
De architectuur is voorzien van een op Transformer gebaseerde variatie-autoencoder (ViT VAE) om de beeldgrootte te comprimeren en de diffusie in staat te stellen zich te concentreren op kenmerken op een hoger niveau, samen met een versneld axiaal, causaal spatiotemporeel aandachtsmechanisme.
In tegenstelling tot bidirectionele modellen genereert Oasis frames automatisch regressief, met de mogelijkheid om elk frame te conditioneren op basis van game-invoer. Hierdoor kunnen gebruikers in realtime met de wereld communiceren in plaats van alleen maar video's met terugwerkende kracht weer te geven.
Het model maakt gebruik van diffusieforceringstechnieken en bevat extra temporele aandachtslagen die tussen ruimtelijke aandachtslagen zijn geweven om context uit eerdere frames te bieden.
Het team werkt actief aan het schalen van het model en de datasets, naast het ontwikkelen van aanvullende optimalisatietechnieken om efficiënte grootschalige training mogelijk te maken.
Naast gaming wil Oasis zich uitbreiden naar volledig interactieve multimodale videogeneratie, wat mogelijk een revolutie teweegbrengt in de manier waarop we omgaan met digitale inhoud en entertainmentplatforms.