Informazioni su Decart Oasis AI Minecraft

Il primo modello di intelligenza artificiale giocabile, in tempo reale e open-world che genera il gameplay fotogramma per fotogramma, sviluppato da Decart AI.

🎮 Panoramica del progetto

Oasis AI Minecraft, sviluppato da Decart AI in collaborazione con Etched, rappresenta un risultato rivoluzionario nella tecnologia di gioco AI. È un videogioco interattivo generato end-to-end da un trasformatore fotogramma per fotogramma.

A differenza dei giochi tradizionali, Oasis accetta l'input della tastiera e del mouse dell'utente e genera un gameplay in tempo reale, simulando internamente la fisica, le regole del gioco e la grafica. Il modello ha imparato a consentire agli utenti di muoversi, saltare, raccogliere oggetti, rompere blocchi e altro ancora, il tutto guardando direttamente il gameplay.

Questo progetto rivoluzionario combina la ricerca all’avanguardia sull’intelligenza artificiale con l’ottimizzazione dell’hardware avanzato, segnando il primo passo verso modelli fondamentali che simulano mondi interattivi più complessi, sostituendo potenzialmente i classici motori di gioco in un futuro guidato dall’intelligenza artificiale.

Architettura tecnica

🔄 Costruire una nuova architettura interattiva

Abbiamo eseguito centinaia di esperimenti sull'architettura e sui dati per identificare la migliore architettura per la generazione rapida di video interattivi autoregressivi. A differenza dei tradizionali modelli bidirezionali, la nostra architettura è progettata specificamente per la generazione fotogramma per fotogramma in tempo reale con condizionamento dell'input dell'utente.

Oasis's ViT + DiT architecture

Architettura ViT DiT di Oasis con autoencoder variazionale basato su Transformer e attenzione spaziotemporale accelerata

🎯Caratteristiche principali

  • Generazione fotogramma per fotogramma condizionata dall'input dell'utente
  • Autoencoder variazionale basato su trasformatore (ViT VAE)
  • Meccanismo di attenzione spaziotemporale assiale e causale accelerato

💡Innovazioni tecniche

  • Rumore dinamico al momento dell'inferenza per una maggiore stabilità
  • Kernel di inferenza ottimizzati per prestazioni in tempo reale
  • Ulteriori livelli di attenzione temporale per il contesto del frame

🧠 Tecnologia del modello di intelligenza artificiale

Oasis utilizza una combinazione di formazione sulla diffusione e modelli di trasformazione, ispirati a modelli avanzati di grandi linguaggi (LLM). Il modello genera video fotogramma per fotogramma, condizionato dalle azioni dell'utente in ogni istante.

L'architettura presenta un autoencoder variazionale basato su Transformer (ViT VAE) per comprimere le dimensioni dell'immagine e consentire alla diffusione di concentrarsi su caratteristiche di livello superiore, insieme a un meccanismo di attenzione spaziotemporale assiale e causale accelerato.

🎯 Innovazione del modello di diffusione

A differenza dei modelli bidirezionali, Oasis genera frame in modo autoregressivo, con la capacità di condizionare ciascun frame all'input del gioco. Ciò consente agli utenti di interagire con il mondo in tempo reale anziché limitarsi a eseguire il rendering retroattivo dei video.

Il modello impiega tecniche di forzatura della diffusione e include ulteriori strati di attenzione temporale intercalati tra strati di attenzione spaziale per fornire il contesto dai fotogrammi precedenti.

⚙️ Prestazione

🚀 Capacità attuali

  • Raggiunge un tempo di inferenza di 47 ms per frame utilizzando il framework di inferenza proprietario di Decart
  • Funziona con una risoluzione di 360p a 20 fps su GPU NVIDIA H100
  • Ottimizzato per il gameplay del browser Web in tempo reale con una latenza minima

💫 Ottimizzazioni future

  • Il chip Sohu di Etched consentirà il gameplay con risoluzione 4K
  • Può servire 10 volte più utenti rispetto all'hardware attuale allo stesso prezzo e consumo energetico
  • Mira a rendere i giochi di alta qualità generati dall’intelligenza artificiale più accessibili ed economici

📊 Sohu consente a 10 volte più utenti

(Analisi delle prestazioni utilizzando l'architettura Oasis scalata fino a 100B parametri)
20 FPS
Frequenza fotogrammi in tempo reale
4K
Il chip Sohu supporta la risoluzione
100x
Più veloce dei modelli attuali
10x
Può servire più utenti

🔮 Sviluppo futuro

🎯 Sfide attuali

  • Miglioramento della memoria del modello per una migliore conservazione dei dettagli tra i fotogrammi
  • Migliorare la chiarezza dell'output e ridurre la nebulosità in determinate situazioni
  • Gestire casi limite e input esterni alla distribuzione dell'addestramento del modello

🌟 Visione futura

Il team sta lavorando attivamente alla scalabilità del modello e dei set di dati, oltre allo sviluppo di ulteriori tecniche di ottimizzazione per consentire una formazione efficiente su larga scala.

Oltre ai giochi, Oasis mira ad espandersi nella generazione di video multimodali completamente interattivi, rivoluzionando potenzialmente il modo in cui interagiamo con i contenuti digitali e le piattaforme di intrattenimento.

📚 Documentazione