À propos de Decart Oasis AI Minecraft

Le premier modèle d'IA jouable en temps réel et en monde ouvert qui génère un gameplay image par image, développé par Decart AI.

🎮 Aperçu du projet

Oasis AI Minecraft, développé par Decart AI en collaboration avec Etched, représente une réalisation révolutionnaire dans la technologie des jeux IA. Il s'agit d'un jeu vidéo interactif généré bout à bout par un transformateur, image par image.

Contrairement aux jeux traditionnels, Oasis prend en compte les entrées du clavier et de la souris de l'utilisateur et génère un gameplay en temps réel, simulant en interne la physique, les règles du jeu et les graphiques. Le modèle a appris à permettre aux utilisateurs de se déplacer, de sauter, de ramasser des objets, de casser des blocs et bien plus encore, le tout en regardant directement le gameplay.

Ce projet révolutionnaire combine une recherche de pointe en matière d'IA avec une optimisation matérielle avancée, marquant la première étape vers des modèles fondamentaux simulant des mondes interactifs plus complexes, remplaçant potentiellement les moteurs de jeu classiques dans un avenir axé sur l'IA.

Architecture technique

🔄 Construire une nouvelle architecture interactive

Nous avons mené des centaines d'expériences sur l'architecture et les données pour identifier la meilleure architecture pour une génération rapide de vidéos interactives autorégressives. Contrairement aux modèles bidirectionnels traditionnels, notre architecture est spécifiquement conçue pour la génération image par image en temps réel avec conditionnement des entrées utilisateur.

Oasis's ViT + DiT architecture

Architecture ViT DiT d'Oasis dotée d'un auto-encodeur variationnel basé sur un transformateur et d'une attention spatio-temporelle accélérée

🎯Principales fonctionnalités

  • Génération image par image conditionnée par la saisie de l'utilisateur
  • Auto-encodeur variationnel basé sur un transformateur (ViT VAE)
  • Mécanisme d’attention spatio-temporelle causale axiale accélérée

💡Innovations techniques

  • Bruit dynamique au moment de l'inférence pour une stabilité accrue
  • Noyaux d'inférence optimisés pour des performances en temps réel
  • Couches d'attention temporelle supplémentaires pour le contexte de trame

🧠 Technologie de modèle d'IA

Oasis utilise une combinaison de modèles de formation à la diffusion et de transformation, inspirés des modèles avancés en grand langage (LLM). Le modèle génère une vidéo image par image, conditionnée par les actions de l'utilisateur à chaque instant.

L'architecture comprend un auto-encodeur variationnel basé sur un transformateur (ViT VAE) pour compresser la taille de l'image et permettre à la diffusion de se concentrer sur des caractéristiques de niveau supérieur, ainsi qu'un mécanisme d'attention spatio-temporelle axial et causal accéléré.

🎯 Innovation en matière de modèles de diffusion

Contrairement aux modèles bidirectionnels, Oasis génère des images de manière autorégressive, avec la possibilité de conditionner chaque image en fonction des entrées du jeu. Cela permet aux utilisateurs d'interagir avec le monde en temps réel plutôt que de simplement restituer des vidéos de manière rétroactive.

Le modèle utilise des techniques de forçage de diffusion et comprend des couches d'attention temporelles supplémentaires entrelacées entre les couches d'attention spatiale pour fournir le contexte des images précédentes.

⚙️ Performance

🚀 Capacités actuelles

  • Atteint un temps d'inférence de 47 ms par image à l'aide du cadre d'inférence propriétaire de Decart
  • Fonctionne à une résolution de 360p à 20 ips sur les GPU NVIDIA H100
  • Optimisé pour le jeu sur navigateur Web en temps réel avec une latence minimale

💫 Optimisations futures

  • La puce Sohu d'Etched permettra un gameplay en résolution 4K
  • Peut servir 10 fois plus d'utilisateurs que le matériel actuel pour le même prix et la même consommation d'énergie
  • Vise à rendre les jeux de haute qualité générés par l’IA plus accessibles et plus rentables

📊 Sohu permet à 10 fois plus d'utilisateurs

(Analyse des performances à l'aide de l'architecture Oasis mise à l'échelle jusqu'à 100 B de paramètres)
20 FPS
Fréquence d'images en temps réel
4K
La puce Sohu prend en charge la résolution
100x
Plus rapide que les modèles actuels
10x
Peut servir plus d'utilisateurs

🔮 Développement futur

🎯 Défis actuels

  • Amélioration de la mémoire du modèle pour une meilleure conservation des détails dans les images
  • Améliorer la clarté de la sortie et réduire le flou dans certaines situations
  • Gestion des cas extrêmes et des entrées en dehors de la distribution de formation du modèle

🌟 Vision future

L'équipe travaille activement à la mise à l'échelle du modèle et des ensembles de données, tout en développant des techniques d'optimisation supplémentaires pour permettre une formation efficace à grande échelle.

Au-delà du jeu, Oasis vise à se développer dans la génération vidéo multimodale entièrement interactive, révolutionnant potentiellement la façon dont nous interagissons avec le contenu numérique et les plateformes de divertissement.

📚 Documentation