El primer modelo de IA jugable, en tiempo real y de mundo abierto que genera jugabilidad cuadro por cuadro, desarrollado por Decart AI.
Oasis AI Minecraft, desarrollado por Decart AI en colaboración con Etched, representa un logro innovador en la tecnología de juegos de IA. Es un videojuego interactivo generado de extremo a extremo por un transformador cuadro por cuadro.
A diferencia de los juegos tradicionales, Oasis toma la entrada del teclado y el mouse del usuario y genera juegos en tiempo real, simulando internamente la física, las reglas del juego y los gráficos. El modelo aprendió a permitir a los usuarios moverse, saltar, recoger objetos, romper bloques y más, todo ello viendo el juego directamente.
Este revolucionario proyecto combina investigación de IA de vanguardia con optimización avanzada de hardware, lo que marca el primer paso hacia modelos fundamentales que simulan mundos interactivos más complejos, reemplazando potencialmente los motores de juegos clásicos en un futuro impulsado por la IA.
Realizamos cientos de experimentos arquitectónicos y de datos para identificar la mejor arquitectura para la generación rápida de videos interactivos autorregresivos. A diferencia de los modelos bidireccionales tradicionales, nuestra arquitectura está diseñada específicamente para la generación cuadro por cuadro en tiempo real con acondicionamiento de la entrada del usuario.
Arquitectura ViT DiT de Oasis que presenta un codificador automático variacional basado en Transformer y atención espaciotemporal acelerada
Oasis utiliza una combinación de entrenamiento de difusión y modelos transformadores, inspirados en modelos avanzados de lenguaje grande (LLM). El modelo genera vídeo cuadro a cuadro, condicionado por las acciones del usuario en cada instante.
La arquitectura presenta un codificador automático variacional basado en transformador (ViT VAE) para comprimir el tamaño de la imagen y permitir que la difusión se centre en características de nivel superior, junto con un mecanismo de atención espaciotemporal causal, axial y acelerado.
A diferencia de los modelos bidireccionales, Oasis genera fotogramas de forma autorregresiva, con la capacidad de condicionar cada fotograma a la entrada del juego. Esto permite a los usuarios interactuar con el mundo en tiempo real en lugar de simplemente reproducir vídeos de forma retroactiva.
El modelo emplea técnicas de difusión forzada e incluye capas de atención temporal adicionales intercaladas entre capas de atención espacial para proporcionar contexto de fotogramas anteriores.
El equipo está trabajando activamente para ampliar el modelo y los conjuntos de datos, además de desarrollar técnicas de optimización adicionales para permitir una capacitación eficiente a gran escala.
Más allá de los juegos, Oasis pretende expandirse hacia la generación de vídeo multimodal totalmente interactivo, revolucionando potencialmente la forma en que interactuamos con el contenido digital y las plataformas de entretenimiento.