Das erste spielbare Open-World-KI-Modell in Echtzeit, das das Gameplay Bild für Bild generiert, entwickelt von Decart AI.
Oasis AI Minecraft wurde von Decart AI in Zusammenarbeit mit Etched entwickelt und stellt eine bahnbrechende Errungenschaft in der KI-Gaming-Technologie dar. Es handelt sich um ein interaktives Videospiel, das von einem Transformator Bild für Bild durchgängig generiert wird.
Im Gegensatz zu herkömmlichen Spielen berücksichtigt Oasis Benutzereingaben über Tastatur und Maus und generiert Echtzeit-Gameplay, indem es intern Physik, Spielregeln und Grafiken simuliert. Das Modell lernte, es Benutzern zu ermöglichen, sich zu bewegen, zu springen, Gegenstände aufzuheben, Blöcke aufzubrechen und vieles mehr, indem sie das Gameplay direkt beobachteten.
Dieses revolutionäre Projekt kombiniert modernste KI-Forschung mit fortschrittlicher Hardwareoptimierung und markiert den ersten Schritt hin zu grundlegenden Modellen, die komplexere interaktive Welten simulieren und möglicherweise klassische Spiele-Engines in einer KI-gesteuerten Zukunft ersetzen.
Wir haben Hunderte von Architektur- und Datenexperimenten durchgeführt, um die beste Architektur für die schnelle autoregressive interaktive Videogenerierung zu ermitteln. Im Gegensatz zu herkömmlichen bidirektionalen Modellen ist unsere Architektur speziell für die Bild-für-Bild-Generierung in Echtzeit mit Konditionierung der Benutzereingaben ausgelegt.
Die ViT DiT-Architektur von Oasis mit Transformer-basiertem Variations-Autoencoder und beschleunigter raumzeitlicher Aufmerksamkeit
Oasis nutzt eine Kombination aus Diffusionstraining und Transformatormodellen, inspiriert von fortgeschrittenen Large-Language-Models (LLMs). Das Modell generiert Videos Bild für Bild, abhängig von den Benutzeraktionen zu jedem Zeitpunkt.
Die Architektur verfügt über einen transformatorbasierten Variations-Autoencoder (ViT VAE), um die Bildgröße zu komprimieren und es der Diffusion zu ermöglichen, sich auf Merkmale auf höherer Ebene zu konzentrieren, zusammen mit einem beschleunigten axialen, kausalen räumlich-zeitlichen Aufmerksamkeitsmechanismus.
Im Gegensatz zu bidirektionalen Modellen generiert Oasis Frames autoregressiv und bietet die Möglichkeit, jeden Frame an die Spieleingabe anzupassen. Dadurch können Benutzer in Echtzeit mit der Welt interagieren, anstatt Videos nur nachträglich zu rendern.
Das Modell nutzt diffusionserzwingende Techniken und umfasst zusätzliche zeitliche Aufmerksamkeitsschichten, die zwischen räumlichen Aufmerksamkeitsschichten verschachtelt sind, um Kontext aus vorherigen Frames bereitzustellen.
Das Team arbeitet aktiv an der Skalierung des Modells und der Datensätze und entwickelt zusätzliche Optimierungstechniken, um ein effizientes groß angelegtes Training zu ermöglichen.
Über das Gaming hinaus will Oasis in die vollständig interaktive, multimodale Videogenerierung expandieren und möglicherweise die Art und Weise, wie wir mit digitalen Inhalten und Unterhaltungsplattformen interagieren, revolutionieren.
Erfahren Sie mehr über den Entwicklungsweg und die technischen Erkenntnisse von Oasis AI Minecraft
Entdecken Sie die ausführliche Dokumentation zu Funktionen und Implementierung
Tauchen Sie tief in die technische Architektur und Forschungsdetails ein