Pierwszy grywalny model sztucznej inteligencji działający w czasie rzeczywistym i z otwartym światem, który generuje rozgrywkę klatka po klatce, opracowany przez Decart AI.
Oasis AI Minecraft, opracowany przez Decart AI we współpracy z Etched, stanowi przełomowe osiągnięcie w technologii gier AI. To interaktywna gra wideo generowana od początku do końca przez transformator klatka po klatce.
W przeciwieństwie do tradycyjnych gier, Oasis wykorzystuje dane wejściowe użytkownika z klawiatury i myszy i generuje rozgrywkę w czasie rzeczywistym, wewnętrznie symulując fizykę, zasady gry i grafikę. Model nauczył się umożliwiać użytkownikom poruszanie się, skakanie, podnoszenie przedmiotów, łamanie bloków i nie tylko, a wszystko to poprzez bezpośrednie obserwowanie rozgrywki.
Ten rewolucyjny projekt łączy najnowocześniejsze badania nad sztuczną inteligencją z zaawansowaną optymalizacją sprzętu, co stanowi pierwszy krok w kierunku podstawowych modeli symulujących bardziej złożone interaktywne światy, potencjalnie zastępujących klasyczne silniki gier w przyszłości opartej na sztucznej inteligencji.
Przeprowadziliśmy setki eksperymentów architektonicznych i danych, aby zidentyfikować najlepszą architekturę do szybkiego generowania interaktywnego wideo z autoregresją. W przeciwieństwie do tradycyjnych modeli dwukierunkowych, nasza architektura została specjalnie zaprojektowana do generowania klatka po klatce w czasie rzeczywistym z warunkowaniem wprowadzanym przez użytkownika.
Architektura ViT DiT firmy Oasis obejmująca wariacyjny autoenkoder oparty na transformatorze i przyspieszoną uwagę czasoprzestrzenną
Oasis wykorzystuje kombinację uczenia dyfuzyjnego i modeli transformatorowych, inspirowanych zaawansowanymi modelami wielkojęzycznymi (LLM). Model generuje wideo klatka po klatce, warunkowane działaniami użytkownika w każdym momencie.
Architektura obejmuje oparty na transformatorze wariacyjny autoenkoder (ViT VAE), który kompresuje rozmiar obrazu i umożliwia skupienie się dyfuzji na cechach wyższego poziomu, wraz z przyspieszonym osiowym, przyczynowym mechanizmem uwagi czasoprzestrzennej.
W przeciwieństwie do modeli dwukierunkowych, Oasis generuje klatki autoregresywnie, z możliwością warunkowania każdej klatki na podstawie danych wejściowych z gry. Umożliwia to użytkownikom interakcję ze światem w czasie rzeczywistym, a nie tylko renderowanie filmów z mocą wsteczną.
Model wykorzystuje techniki wymuszania dyfuzji i zawiera dodatkowe warstwy uwagi czasowej przeplatane pomiędzy warstwami uwagi przestrzennej, aby zapewnić kontekst z poprzednich klatek.
Zespół aktywnie pracuje nad skalowaniem modelu i zbiorów danych, a także opracowuje dodatkowe techniki optymalizacji, aby umożliwić wydajne szkolenie na dużą skalę.
Oprócz gier, Oasis zamierza rozszerzyć działalność na w pełni interaktywne, multimodalne generowanie wideo, potencjalnie rewolucjonizując sposób, w jaki współdziałamy z treściami cyfrowymi i platformami rozrywkowymi.