Il primo modello di intelligenza artificiale giocabile, in tempo reale e open-world che genera il gameplay fotogramma per fotogramma, sviluppato da Decart AI.
Oasis AI Minecraft, sviluppato da Decart AI in collaborazione con Etched, rappresenta un risultato rivoluzionario nella tecnologia di gioco AI. È un videogioco interattivo generato end-to-end da un trasformatore fotogramma per fotogramma.
A differenza dei giochi tradizionali, Oasis accetta l'input della tastiera e del mouse dell'utente e genera un gameplay in tempo reale, simulando internamente la fisica, le regole del gioco e la grafica. Il modello ha imparato a consentire agli utenti di muoversi, saltare, raccogliere oggetti, rompere blocchi e altro ancora, il tutto guardando direttamente il gameplay.
Questo progetto rivoluzionario combina la ricerca all’avanguardia sull’intelligenza artificiale con l’ottimizzazione dell’hardware avanzato, segnando il primo passo verso modelli fondamentali che simulano mondi interattivi più complessi, sostituendo potenzialmente i classici motori di gioco in un futuro guidato dall’intelligenza artificiale.
Abbiamo eseguito centinaia di esperimenti sull'architettura e sui dati per identificare la migliore architettura per la generazione rapida di video interattivi autoregressivi. A differenza dei tradizionali modelli bidirezionali, la nostra architettura è progettata specificamente per la generazione fotogramma per fotogramma in tempo reale con condizionamento dell'input dell'utente.
Architettura ViT DiT di Oasis con autoencoder variazionale basato su Transformer e attenzione spaziotemporale accelerata
Oasis utilizza una combinazione di formazione sulla diffusione e modelli di trasformazione, ispirati a modelli avanzati di grandi linguaggi (LLM). Il modello genera video fotogramma per fotogramma, condizionato dalle azioni dell'utente in ogni istante.
L'architettura presenta un autoencoder variazionale basato su Transformer (ViT VAE) per comprimere le dimensioni dell'immagine e consentire alla diffusione di concentrarsi su caratteristiche di livello superiore, insieme a un meccanismo di attenzione spaziotemporale assiale e causale accelerato.
A differenza dei modelli bidirezionali, Oasis genera frame in modo autoregressivo, con la capacità di condizionare ciascun frame all'input del gioco. Ciò consente agli utenti di interagire con il mondo in tempo reale anziché limitarsi a eseguire il rendering retroattivo dei video.
Il modello impiega tecniche di forzatura della diffusione e include ulteriori strati di attenzione temporale intercalati tra strati di attenzione spaziale per fornire il contesto dai fotogrammi precedenti.
Il team sta lavorando attivamente alla scalabilità del modello e dei set di dati, oltre allo sviluppo di ulteriori tecniche di ottimizzazione per consentire una formazione efficiente su larga scala.
Oltre ai giochi, Oasis mira ad espandersi nella generazione di video multimodali completamente interattivi, rivoluzionando potenzialmente il modo in cui interagiamo con i contenuti digitali e le piattaforme di intrattenimento.