Den første spilbare, realtime, åbne verden AI-model, der genererer gameplay på et billede-for-billede, udviklet af Decart AI.
Oasis AI Minecraft, udviklet af Decart AI i samarbejde med Etched, repræsenterer en banebrydende præstation inden for AI-spilteknologi. Det er et interaktivt videospil, der genereres ende-til-ende af en transformer på et billede-til-billede.
I modsætning til traditionelle spil tager Oasis brugerens tastatur og mus input og genererer real-time gameplay, der internt simulerer fysik, spilleregler og grafik. Modellen lærte at tillade brugere at bevæge sig rundt, hoppe, samle genstande op, bryde blokke og mere, alt sammen ved at se gameplay direkte.
Dette revolutionerende projekt kombinerer banebrydende AI-forskning med avanceret hardwareoptimering, hvilket markerer det første skridt mod grundlæggende modeller, der simulerer mere komplekse interaktive verdener, og som potentielt erstatter klassiske spilmotorer i en AI-drevet fremtid.
Vi kørte hundredvis af arkitektur- og dataeksperimenter for at identificere den bedste arkitektur til hurtig autoregressiv interaktiv videogenerering. I modsætning til traditionelle tovejsmodeller er vores arkitektur specifikt designet til real-time, frame-by-frame-generering med brugerinput-konditionering.
Oasis's ViT DiT-arkitektur byder på Transformer-baseret variationsautoencoder og accelereret spatiotemporal opmærksomhed
Oasis anvender en kombination af diffusionstræning og transformatormodeller, inspireret af avancerede store sprogmodeller (LLM'er). Modellen genererer video på et billede-for-billede, betinget af brugerhandlinger på hvert øjeblik.
Arkitekturen har en transformer-baseret variationsautoencoder (ViT VAE) for at komprimere billedstørrelsen og gøre det muligt for diffusionen at fokusere på højere niveau karakteristika sammen med en accelereret aksial, kausal spatiotemporal opmærksomhedsmekanisme.
I modsætning til tovejsmodeller genererer Oasis frames autoregressivt, med evnen til at betinge hvert enkelt billede på spilinput. Dette gør det muligt for brugere at interagere med verden i realtid i stedet for blot at gengive videoer med tilbagevirkende kraft.
Modellen anvender diffusions-forcing teknikker og inkluderer yderligere tidsmæssige opmærksomhedslag indflettet mellem rumlige opmærksomhedslag for at give kontekst fra tidligere frames.
Teamet arbejder aktivt på at skalere modellen og datasættene, sideløbende med at udvikle yderligere optimeringsteknikker for at muliggøre effektiv træning i stor skala.
Ud over spil, sigter Oasis på at udvide til fuld interaktiv multimodal videogenerering, hvilket potentielt revolutionerer, hvordan vi interagerer med digitalt indhold og underholdningsplatforme.