O grze Decart Oasis AI Minecraft

Pierwszy grywalny model sztucznej inteligencji działający w czasie rzeczywistym i z otwartym światem, który generuje rozgrywkę klatka po klatce, opracowany przez Decart AI.

🎮 Przegląd projektu

Oasis AI Minecraft, opracowany przez Decart AI we współpracy z Etched, stanowi przełomowe osiągnięcie w technologii gier AI. To interaktywna gra wideo generowana od początku do końca przez transformator klatka po klatce.

W przeciwieństwie do tradycyjnych gier, Oasis wykorzystuje dane wejściowe użytkownika z klawiatury i myszy i generuje rozgrywkę w czasie rzeczywistym, wewnętrznie symulując fizykę, zasady gry i grafikę. Model nauczył się umożliwiać użytkownikom poruszanie się, skakanie, podnoszenie przedmiotów, łamanie bloków i nie tylko, a wszystko to poprzez bezpośrednie obserwowanie rozgrywki.

Ten rewolucyjny projekt łączy najnowocześniejsze badania nad sztuczną inteligencją z zaawansowaną optymalizacją sprzętu, co stanowi pierwszy krok w kierunku podstawowych modeli symulujących bardziej złożone interaktywne światy, potencjalnie zastępujących klasyczne silniki gier w przyszłości opartej na sztucznej inteligencji.

Architektura Techniczna

🔄 Budowa nowej architektury interaktywnej

Przeprowadziliśmy setki eksperymentów architektonicznych i danych, aby zidentyfikować najlepszą architekturę do szybkiego generowania interaktywnego wideo z autoregresją. W przeciwieństwie do tradycyjnych modeli dwukierunkowych, nasza architektura została specjalnie zaprojektowana do generowania klatka po klatce w czasie rzeczywistym z warunkowaniem wprowadzanym przez użytkownika.

Oasis's ViT + DiT architecture

Architektura ViT DiT firmy Oasis obejmująca wariacyjny autoenkoder oparty na transformatorze i przyspieszoną uwagę czasoprzestrzenną

🎯Kluczowe funkcje

  • Generowanie klatka po klatce uwarunkowane danymi wejściowymi użytkownika
  • Transformatorowy autoenkoder wariacyjny (ViT VAE)
  • Przyspieszony osiowy, przyczynowy mechanizm uwagi czasoprzestrzennej

💡Innowacje techniczne

  • Szum dynamiczny w czasie wnioskowania dla zwiększenia stabilności
  • Zoptymalizowane jądra wnioskowania pod kątem wydajności w czasie rzeczywistym
  • Dodatkowe warstwy uwagi tymczasowej dla kontekstu ramki

🧠 Technologia modelu AI

Oasis wykorzystuje kombinację uczenia dyfuzyjnego i modeli transformatorowych, inspirowanych zaawansowanymi modelami wielkojęzycznymi (LLM). Model generuje wideo klatka po klatce, warunkowane działaniami użytkownika w każdym momencie.

Architektura obejmuje oparty na transformatorze wariacyjny autoenkoder (ViT VAE), który kompresuje rozmiar obrazu i umożliwia skupienie się dyfuzji na cechach wyższego poziomu, wraz z przyspieszonym osiowym, przyczynowym mechanizmem uwagi czasoprzestrzennej.

🎯 Innowacja w modelu dyfuzji

W przeciwieństwie do modeli dwukierunkowych, Oasis generuje klatki autoregresywnie, z możliwością warunkowania każdej klatki na podstawie danych wejściowych z gry. Umożliwia to użytkownikom interakcję ze światem w czasie rzeczywistym, a nie tylko renderowanie filmów z mocą wsteczną.

Model wykorzystuje techniki wymuszania dyfuzji i zawiera dodatkowe warstwy uwagi czasowej przeplatane pomiędzy warstwami uwagi przestrzennej, aby zapewnić kontekst z poprzednich klatek.

⚙️ Wydajność

🚀 Aktualne możliwości

  • Osiąga czas wnioskowania 47 ms na klatkę przy użyciu zastrzeżonego środowiska wnioskowania Decart
  • Działa w rozdzielczości 360p przy 20 klatkach na sekundę na procesorach graficznych NVIDIA H100
  • Zoptymalizowany pod kątem rozgrywki w przeglądarce internetowej w czasie rzeczywistym przy minimalnym opóźnieniu

💫 Przyszłe optymalizacje

  • Chip Sohu firmy Etched umożliwi rozgrywkę w rozdzielczości 4K
  • Może obsłużyć 10 razy więcej użytkowników niż obecny sprzęt przy tej samej cenie i zużyciu energii
  • Ma na celu uczynienie wysokiej jakości gier generowanych przez sztuczną inteligencję bardziej dostępnymi i opłacalnymi

📊 Sohu umożliwia 10 razy więcej użytkowników

(Analiza wydajności przy użyciu architektury Oasis skalowanej do 100B parametrów)
20 FPS
Liczba klatek na sekundę w czasie rzeczywistym
4K
Sohu Chip obsługuje rozdzielczość
100x
Szybszy niż obecne modele
10x
Może obsłużyć więcej użytkowników

🔮 Przyszły rozwój

🎯 Aktualne wyzwania

  • Poprawa pamięci modelu w celu lepszego zachowania szczegółów w klatkach
  • Zwiększanie przejrzystości obrazu wyjściowego i zmniejszanie zamglenia w niektórych sytuacjach
  • Obsługa przypadków brzegowych i danych wejściowych poza dystrybucją szkoleniową modelu

🌟 Przyszła wizja

Zespół aktywnie pracuje nad skalowaniem modelu i zbiorów danych, a także opracowuje dodatkowe techniki optymalizacji, aby umożliwić wydajne szkolenie na dużą skalę.

Oprócz gier, Oasis zamierza rozszerzyć działalność na w pełni interaktywne, multimodalne generowanie wideo, potencjalnie rewolucjonizując sposób, w jaki współdziałamy z treściami cyfrowymi i platformami rozrywkowymi.

📚 Dokumentacja