Le premier modèle d'IA jouable en temps réel et en monde ouvert qui génère un gameplay image par image, développé par Decart AI.
Oasis AI Minecraft, développé par Decart AI en collaboration avec Etched, représente une réalisation révolutionnaire dans la technologie des jeux IA. Il s'agit d'un jeu vidéo interactif généré bout à bout par un transformateur, image par image.
Contrairement aux jeux traditionnels, Oasis prend en compte les entrées du clavier et de la souris de l'utilisateur et génère un gameplay en temps réel, simulant en interne la physique, les règles du jeu et les graphiques. Le modèle a appris à permettre aux utilisateurs de se déplacer, de sauter, de ramasser des objets, de casser des blocs et bien plus encore, le tout en regardant directement le gameplay.
Ce projet révolutionnaire combine une recherche de pointe en matière d'IA avec une optimisation matérielle avancée, marquant la première étape vers des modèles fondamentaux simulant des mondes interactifs plus complexes, remplaçant potentiellement les moteurs de jeu classiques dans un avenir axé sur l'IA.
Nous avons mené des centaines d'expériences sur l'architecture et les données pour identifier la meilleure architecture pour une génération rapide de vidéos interactives autorégressives. Contrairement aux modèles bidirectionnels traditionnels, notre architecture est spécifiquement conçue pour la génération image par image en temps réel avec conditionnement des entrées utilisateur.
Architecture ViT DiT d'Oasis dotée d'un auto-encodeur variationnel basé sur un transformateur et d'une attention spatio-temporelle accélérée
Oasis utilise une combinaison de modèles de formation à la diffusion et de transformation, inspirés des modèles avancés en grand langage (LLM). Le modèle génère une vidéo image par image, conditionnée par les actions de l'utilisateur à chaque instant.
L'architecture comprend un auto-encodeur variationnel basé sur un transformateur (ViT VAE) pour compresser la taille de l'image et permettre à la diffusion de se concentrer sur des caractéristiques de niveau supérieur, ainsi qu'un mécanisme d'attention spatio-temporelle axial et causal accéléré.
Contrairement aux modèles bidirectionnels, Oasis génère des images de manière autorégressive, avec la possibilité de conditionner chaque image en fonction des entrées du jeu. Cela permet aux utilisateurs d'interagir avec le monde en temps réel plutôt que de simplement restituer des vidéos de manière rétroactive.
Le modèle utilise des techniques de forçage de diffusion et comprend des couches d'attention temporelles supplémentaires entrelacées entre les couches d'attention spatiale pour fournir le contexte des images précédentes.
L'équipe travaille activement à la mise à l'échelle du modèle et des ensembles de données, tout en développant des techniques d'optimisation supplémentaires pour permettre une formation efficace à grande échelle.
Au-delà du jeu, Oasis vise à se développer dans la génération vidéo multimodale entièrement interactive, révolutionnant potentiellement la façon dont nous interagissons avec le contenu numérique et les plateformes de divertissement.
Découvrez le parcours de développement et les informations techniques d'Oasis AI Minecraft
Explorez la documentation détaillée sur les fonctionnalités et la mise en œuvre
Plongez en profondeur dans l’architecture technique et les détails de la recherche