Über Decart Oasis AI Minecraft

Das erste spielbare Open-World-KI-Modell in Echtzeit, das das Gameplay Bild für Bild generiert, entwickelt von Decart AI.

🎮 Projektübersicht

Oasis AI Minecraft wurde von Decart AI in Zusammenarbeit mit Etched entwickelt und stellt eine bahnbrechende Errungenschaft in der KI-Gaming-Technologie dar. Es handelt sich um ein interaktives Videospiel, das von einem Transformator Bild für Bild durchgängig generiert wird.

Im Gegensatz zu herkömmlichen Spielen berücksichtigt Oasis Benutzereingaben über Tastatur und Maus und generiert Echtzeit-Gameplay, indem es intern Physik, Spielregeln und Grafiken simuliert. Das Modell lernte, es Benutzern zu ermöglichen, sich zu bewegen, zu springen, Gegenstände aufzuheben, Blöcke aufzubrechen und vieles mehr, indem sie das Gameplay direkt beobachteten.

Dieses revolutionäre Projekt kombiniert modernste KI-Forschung mit fortschrittlicher Hardwareoptimierung und markiert den ersten Schritt hin zu grundlegenden Modellen, die komplexere interaktive Welten simulieren und möglicherweise klassische Spiele-Engines in einer KI-gesteuerten Zukunft ersetzen.

Technische Architektur

🔄 Aufbau einer neuen interaktiven Architektur

Wir haben Hunderte von Architektur- und Datenexperimenten durchgeführt, um die beste Architektur für die schnelle autoregressive interaktive Videogenerierung zu ermitteln. Im Gegensatz zu herkömmlichen bidirektionalen Modellen ist unsere Architektur speziell für die Bild-für-Bild-Generierung in Echtzeit mit Konditionierung der Benutzereingaben ausgelegt.

Oasis's ViT + DiT architecture

Die ViT DiT-Architektur von Oasis mit Transformer-basiertem Variations-Autoencoder und beschleunigter raumzeitlicher Aufmerksamkeit

🎯Hauptmerkmale

  • Frame-by-Frame-Generierung abhängig von Benutzereingaben
  • Transformatorbasierter Variations-Autoencoder (ViT VAE)
  • Beschleunigter axialer, kausaler raumzeitlicher Aufmerksamkeitsmechanismus

💡Technische Innovationen

  • Dynamisches Rauschen zur Inferenzzeit für erhöhte Stabilität
  • Optimierte Inferenzkerne für Echtzeitleistung
  • Zusätzliche zeitliche Aufmerksamkeitsebenen für den Rahmenkontext

🧠 KI-Modelltechnologie

Oasis nutzt eine Kombination aus Diffusionstraining und Transformatormodellen, inspiriert von fortgeschrittenen Large-Language-Models (LLMs). Das Modell generiert Videos Bild für Bild, abhängig von den Benutzeraktionen zu jedem Zeitpunkt.

Die Architektur verfügt über einen transformatorbasierten Variations-Autoencoder (ViT VAE), um die Bildgröße zu komprimieren und es der Diffusion zu ermöglichen, sich auf Merkmale auf höherer Ebene zu konzentrieren, zusammen mit einem beschleunigten axialen, kausalen räumlich-zeitlichen Aufmerksamkeitsmechanismus.

🎯 Diffusionsmodell-Innovation

Im Gegensatz zu bidirektionalen Modellen generiert Oasis Frames autoregressiv und bietet die Möglichkeit, jeden Frame an die Spieleingabe anzupassen. Dadurch können Benutzer in Echtzeit mit der Welt interagieren, anstatt Videos nur nachträglich zu rendern.

Das Modell nutzt diffusionserzwingende Techniken und umfasst zusätzliche zeitliche Aufmerksamkeitsschichten, die zwischen räumlichen Aufmerksamkeitsschichten verschachtelt sind, um Kontext aus vorherigen Frames bereitzustellen.

⚙️ Leistung

🚀 Aktuelle Fähigkeiten

  • Erreicht mithilfe des proprietären Inferenz-Frameworks von Decart eine Inferenzzeit von 47 ms pro Frame
  • Läuft mit 360p-Auflösung und 20 Bildern pro Sekunde auf NVIDIA H100-GPUs
  • Optimiert für Echtzeit-Webbrowser-Gameplay mit minimaler Latenz

💫 Zukünftige Optimierungen

  • Der Sohu-Chip von Etched ermöglicht Gameplay in 4K-Auflösung
  • Kann bei gleichem Preis und gleichem Stromverbrauch 10x mehr Benutzer bedienen als aktuelle Hardware
  • Ziel ist es, hochwertiges KI-generiertes Gaming zugänglicher und kostengünstiger zu machen

📊 Sohu ermöglicht 10x mehr Benutzer

(Leistungsanalyse unter Verwendung der Oasis-Architektur, skaliert auf bis zu 100 Milliarden Parameter)
20 FPS
Bildrate in Echtzeit
4K
Sohu Chip unterstützt Auflösung
100x
Schneller als aktuelle Modelle
10x
Kann mehr Benutzer bedienen

🔮 Zukünftige Entwicklung

🎯 Aktuelle Herausforderungen

  • Verbesserung des Modellspeichers für eine bessere Detailerhaltung über Frames hinweg
  • Verbessert die Klarheit der Ausgabe und verringert die Unschärfe in bestimmten Situationen
  • Umgang mit Randfällen und Eingaben außerhalb der Trainingsverteilung des Modells

🌟 Zukunftsvision

Das Team arbeitet aktiv an der Skalierung des Modells und der Datensätze und entwickelt zusätzliche Optimierungstechniken, um ein effizientes groß angelegtes Training zu ermöglichen.

Über das Gaming hinaus will Oasis in die vollständig interaktive, multimodale Videogenerierung expandieren und möglicherweise die Art und Weise, wie wir mit digitalen Inhalten und Unterhaltungsplattformen interagieren, revolutionieren.

📚 Dokumentation