Apie Decart Oasis AI Minecraft

Pirmasis žaidžiamas realaus laiko atviro pasaulio AI modelis, kuris generuoja žaidimą po kadro, sukurtas Decart AI.

🎮 Projekto apžvalga

„Oasis AI Minecraft“, sukurta Decart AI bendradarbiaudama su „Etched“, yra novatoriškas AI žaidimų technologijos pasiekimas. Tai interaktyvus vaizdo žaidimas, kurį transformatorius generuoja kiekvieną kadrą.

Skirtingai nuo tradicinių žaidimų, „Oasis“ priima vartotojo klaviatūros ir pelės įvestį ir generuoja žaidimo eigą realiuoju laiku, viduje imituodama fiziką, žaidimo taisykles ir grafiką. Modelis išmoko leisti vartotojams judėti, šokinėti, pasiimti daiktus, laužyti blokus ir dar daugiau – visa tai tiesiogiai stebint žaidimą.

Šis revoliucinis projektas apjungia pažangiausius dirbtinio intelekto tyrimus su pažangiu aparatinės įrangos optimizavimu, o tai ženklina pirmąjį žingsnį link pagrindinių modelių, imituojančių sudėtingesnius interaktyvius pasaulius, galinčius pakeisti klasikinius žaidimų variklius dirbtinio intelekto pagrįstoje ateityje.

Techninė architektūra

🔄 Naujos interaktyvios architektūros kūrimas

Atlikome šimtus architektūrinių ir duomenų eksperimentų, kad nustatytų geriausią greito autoregresyvaus interaktyvaus vaizdo generavimo architektūrą. Skirtingai nuo tradicinių dvikrypčių modelių, mūsų architektūra yra specialiai sukurta generuoti realiuoju laiku, kadras po kadro su vartotojo įvesties kondicionavimu.

Oasis's ViT + DiT architecture

„Oasis“ ViT DiT architektūra su transformatoriumi pagrįstu variaciniu automatiniu koduotuvu ir pagreitintu erdvėlaikiniu dėmesiu

🎯Pagrindinės savybės

  • Kadras po kadro generavimas priklauso nuo vartotojo įvesties
  • Transformatoriumi pagrįstas variacinis automatinis kodavimo įrenginys (ViT VAE)
  • Pagreitintas ašinis, priežastinis erdvinio ir laiko dėmesio mechanizmas

💡Techninės naujovės

  • Dinaminis triukšmas išvados metu padidina stabilumą
  • Optimizuoti išvadų branduoliai, užtikrinantys našumą realiuoju laiku
  • Papildomi laiko dėmesio sluoksniai kadro kontekstui

🧠 AI modelių technologija

Oasis naudoja difuzijos mokymo ir transformatorių modelių derinį, įkvėptą pažangių didelių kalbų modelių (LLM). Modelis generuoja vaizdo įrašą po kadro, kurį kiekvieną akimirką lemia vartotojo veiksmai.

Architektūra pasižymi transformatoriumi pagrįstu variaciniu automatiniu koduotuvu (ViT VAE), kuris sumažina vaizdo dydį ir leidžia sklaidai sutelkti dėmesį į aukštesnio lygio charakteristikas, kartu su pagreitintu ašiniu, priežastiniu erdvėlaikio dėmesio mechanizmu.

🎯 Difuzijos modelio naujovės

Skirtingai nuo dvikrypčių modelių, „Oasis“ generuoja kadrus autoregresyviai, su galimybe kiekvieną kadrą nustatyti pagal žaidimo įvestį. Tai leidžia vartotojams bendrauti su pasauliu realiuoju laiku, o ne tik atkurti vaizdo įrašus atgaline data.

Modelyje naudojami difuzijos privertimo metodai ir papildomi laiko dėmesio sluoksniai, išdėstyti tarp erdvinio dėmesio sluoksnių, kad būtų pateiktas kontekstas iš ankstesnių kadrų.

⚙️ Spektaklis

🚀 Dabartinės galimybės

  • Pasiekia 47 ms išvados laiką vienam kadrui naudojant Decart patentuotą išvadų sistemą
  • Veikia 360p raiška ir 20 kadrų per sekundę greičiu NVIDIA H100 GPU
  • Optimizuotas žaidimams realiuoju laiku žiniatinklio naršyklėje su minimalia delsa

💫 Ateities optimizavimas

  • „Etched“ „Sohu“ lustas leis žaisti 4K raiška
  • Gali aptarnauti 10 kartų daugiau vartotojų nei dabartinė aparatinė įranga už tą pačią kainą ir energijos suvartojimą
  • Siekiama, kad aukštos kokybės AI sukurti žaidimai būtų prieinamesni ir ekonomiškesni

📊 „Sohu“ įgalina 10 kartų daugiau vartotojų

(Našumo analizė naudojant „Oasis“ architektūrą padidinta iki 100 B parametrų)
20 FPS
Realaus laiko kadrų dažnis
4K
„Sohu Chip“ palaiko skiriamąją gebą
100x
Greičiau nei dabartiniai modeliai
10x
Gali aptarnauti daugiau vartotojų

🔮 Ateities plėtra

🎯 Dabartiniai iššūkiai

  • Pagerina modelio atmintį, kad būtų geriau išsaugotos visos kadro detalės
  • Padidinti išvesties aiškumą ir sumažinti miglotumą tam tikrose situacijose
  • Kraštinių atvejų ir įvesties tvarkymas už modelio mokymo paskirstymo ribų

🌟 Ateities vizija

Komanda aktyviai dirba modelio ir duomenų rinkinių mastelio keitimo srityje, taip pat kuria papildomus optimizavimo metodus, kad būtų galima efektyviai vykdyti didelio masto mokymus.

Be žaidimų, „Oasis“ siekia išplėsti iki visiško interaktyvaus daugiarūšio vaizdo generavimo, potencialiai pakeisdama mūsų sąveiką su skaitmeniniu turiniu ir pramogų platformomis.

📚 Dokumentacija