Informazioni su Decart Oasis AI Minecraft

🎮 Panoramica del progetto

Oasis AI Minecraft, sviluppato da Decart AI in collaborazione con Etched, rappresenta un risultato rivoluzionario nella tecnologia di gioco AI. È un videogioco interattivo generato end-to-end da un trasformatore fotogramma per fotogramma.

A differenza dei giochi tradizionali, Oasis accetta l'input della tastiera e del mouse dell'utente e genera un gameplay in tempo reale, simulando internamente la fisica, le regole del gioco e la grafica. Il modello ha imparato a consentire agli utenti di muoversi, saltare, raccogliere oggetti, rompere blocchi e altro ancora, il tutto guardando direttamente il gameplay.

Questo progetto rivoluzionario combina la ricerca all'avanguardia sull'intelligenza artificiale con l'ottimizzazione dell'hardware avanzato, segnando il primo passo verso modelli fondamentali che simulano mondi interattivi più complessi, sostituendo potenzialmente i classici motori di gioco in un futuro guidato dall'intelligenza artificiale.

⚡ Architettura tecnica

🔄 Costruire una nuova architettura interattiva

Abbiamo eseguito centinaia di esperimenti sull'architettura e sui dati per identificare la migliore architettura per la generazione rapida di video interattivi autoregressivi. A differenza dei tradizionali modelli bidirezionali, la nostra architettura è progettata specificamente per la generazione fotogramma per fotogramma in tempo reale con condizionamento dell'input dell'utente.

Architettura ViT DiT di Oasis con autoencoder variazionale basato su Transformer e attenzione spaziotemporale accelerata

🎯Caratteristiche principali

Generazione fotogramma per fotogramma condizionata dall'input dell'utente
Autoencoder variazionale basato su trasformatore (ViT VAE)
Meccanismo di attenzione spaziotemporale assiale e causale accelerato

💡Innovazioni tecniche

Rumore dinamico al momento dell'inferenza per una maggiore stabilità
Kernel di inferenza ottimizzati per prestazioni in tempo reale
Ulteriori livelli di attenzione temporale per il contesto del frame

🧠 Tecnologia del modello di intelligenza artificiale

Oasis utilizza una combinazione di formazione sulla diffusione e modelli di trasformazione, ispirati a modelli avanzati di grandi linguaggi (LLM). Il modello genera video fotogramma per fotogramma, condizionato dalle azioni dell'utente in ogni istante.

L'architettura presenta un autoencoder variazionale basato su Transformer (ViT VAE) per comprimere le dimensioni dell'immagine e consentire alla diffusione di concentrarsi su caratteristiche di livello superiore, insieme a un meccanismo di attenzione spaziotemporale assiale e causale accelerato.

🎯 Innovazione del modello di diffusione

A differenza dei modelli bidirezionali, Oasis genera frame in modo autoregressivo, con la capacità di condizionare ciascun frame all'input del gioco. Ciò consente agli utenti di interagire con il mondo in tempo reale anziché limitarsi a eseguire il rendering retroattivo dei video.

Il modello impiega tecniche di forzatura della diffusione e include ulteriori strati di attenzione temporale intercalati tra strati di attenzione spaziale per fornire il contesto dai fotogrammi precedenti.

⚙️ Prestazione

🚀 Capacità attuali

Raggiunge un tempo di inferenza di 47 ms per frame utilizzando il framework di inferenza proprietario di Decart
Funziona con una risoluzione di 360p a 20 fps su GPU NVIDIA H100
Ottimizzato per il gameplay del browser Web in tempo reale con una latenza minima

💫 Ottimizzazioni future

Il chip Sohu di Etched consentirà il gameplay con risoluzione 4K
Può servire 10 volte più utenti rispetto all'hardware attuale allo stesso prezzo e consumo energetico
Mira a rendere i giochi di alta qualità generati dall'intelligenza artificiale più accessibili ed economici

📊 Sohu consente a 10 volte più utenti

(Analisi delle prestazioni utilizzando l'architettura Oasis scalata fino a 100B parametri)

20 FPS

Frequenza fotogrammi in tempo reale

Il chip Sohu supporta la risoluzione

100x

Più veloce dei modelli attuali

10x

Può servire più utenti

🔮 Sviluppo futuro

🎯 Sfide attuali

Miglioramento della memoria del modello per una migliore conservazione dei dettagli tra i fotogrammi
Migliorare la chiarezza dell'output e ridurre la nebulosità in determinate situazioni
Gestire casi limite e input esterni alla distribuzione dell'addestramento del modello

🌟 Visione futura

Il team sta lavorando attivamente alla scalabilità del modello e dei set di dati, oltre allo sviluppo di ulteriori tecniche di ottimizzazione per consentire una formazione efficiente su larga scala.

Oltre ai giochi, Oasis mira ad espandersi nella generazione di video multimodali completamente interattivi, rivoluzionando potenzialmente il modo in cui interagiamo con i contenuti digitali e le piattaforme di intrattenimento.