Acerca de Decart Oasis AI Minecraft

El primer modelo de IA jugable, en tiempo real y de mundo abierto que genera jugabilidad cuadro por cuadro, desarrollado por Decart AI.

🎮 Descripción general del proyecto

Oasis AI Minecraft, desarrollado por Decart AI en colaboración con Etched, representa un logro innovador en la tecnología de juegos de IA. Es un videojuego interactivo generado de extremo a extremo por un transformador cuadro por cuadro.

A diferencia de los juegos tradicionales, Oasis toma la entrada del teclado y el mouse del usuario y genera juegos en tiempo real, simulando internamente la física, las reglas del juego y los gráficos. El modelo aprendió a permitir a los usuarios moverse, saltar, recoger objetos, romper bloques y más, todo ello viendo el juego directamente.

Este revolucionario proyecto combina investigación de IA de vanguardia con optimización avanzada de hardware, lo que marca el primer paso hacia modelos fundamentales que simulan mundos interactivos más complejos, reemplazando potencialmente los motores de juegos clásicos en un futuro impulsado por la IA.

Arquitectura Técnica

🔄 Construyendo una nueva arquitectura interactiva

Realizamos cientos de experimentos arquitectónicos y de datos para identificar la mejor arquitectura para la generación rápida de videos interactivos autorregresivos. A diferencia de los modelos bidireccionales tradicionales, nuestra arquitectura está diseñada específicamente para la generación cuadro por cuadro en tiempo real con acondicionamiento de la entrada del usuario.

Oasis's ViT + DiT architecture

Arquitectura ViT DiT de Oasis que presenta un codificador automático variacional basado en Transformer y atención espaciotemporal acelerada

🎯Características clave

  • Generación cuadro por cuadro condicionada a la entrada del usuario
  • Codificador automático variacional basado en transformador (ViT VAE)
  • Mecanismo de atención espaciotemporal causal, axial acelerado.

💡Innovaciones técnicas

  • Ruido dinámico en el momento de la inferencia para mayor estabilidad.
  • Núcleos de inferencia optimizados para rendimiento en tiempo real
  • Capas de atención temporal adicionales para el contexto del marco

🧠 Tecnología de modelo de IA

Oasis utiliza una combinación de entrenamiento de difusión y modelos transformadores, inspirados en modelos avanzados de lenguaje grande (LLM). El modelo genera vídeo cuadro a cuadro, condicionado por las acciones del usuario en cada instante.

La arquitectura presenta un codificador automático variacional basado en transformador (ViT VAE) para comprimir el tamaño de la imagen y permitir que la difusión se centre en características de nivel superior, junto con un mecanismo de atención espaciotemporal causal, axial y acelerado.

🎯 Innovación del modelo de difusión

A diferencia de los modelos bidireccionales, Oasis genera fotogramas de forma autorregresiva, con la capacidad de condicionar cada fotograma a la entrada del juego. Esto permite a los usuarios interactuar con el mundo en tiempo real en lugar de simplemente reproducir vídeos de forma retroactiva.

El modelo emplea técnicas de difusión forzada e incluye capas de atención temporal adicionales intercaladas entre capas de atención espacial para proporcionar contexto de fotogramas anteriores.

⚙️ Actuación

🚀 Capacidades actuales

  • Logra un tiempo de inferencia de 47 ms por fotograma utilizando el marco de inferencia patentado de Decart.
  • Funciona con una resolución de 360p a 20 fps en GPU NVIDIA H100
  • Optimizado para juegos en navegador web en tiempo real con latencia mínima

💫 Optimizaciones futuras

  • El chip Sohu de Etched permitirá juegos con resolución 4K
  • Puede atender a 10 veces más usuarios que el hardware actual al mismo precio y consumo de energía.
  • Su objetivo es hacer que los juegos generados por IA de alta calidad sean más accesibles y rentables.

📊 Sohu permite 10 veces más usuarios

(Análisis de rendimiento utilizando la arquitectura Oasis ampliado hasta 100 mil millones de parámetros)
20 FPS
Velocidad de fotogramas en tiempo real
4K
El chip Sohu admite resolución
100x
Más rápido que los modelos actuales
10x
Puede servir a más usuarios

🔮 Desarrollo futuro

🎯 Desafíos actuales

  • Mejora de la memoria del modelo para una mejor retención de detalles en todos los fotogramas
  • Mejorar la claridad de la salida y reducir la turbidez en determinadas situaciones.
  • Manejo de casos extremos y entradas fuera de la distribución de entrenamiento del modelo.

🌟 Visión de futuro

El equipo está trabajando activamente para ampliar el modelo y los conjuntos de datos, además de desarrollar técnicas de optimización adicionales para permitir una capacitación eficiente a gran escala.

Más allá de los juegos, Oasis pretende expandirse hacia la generación de vídeo multimodal totalmente interactivo, revolucionando potencialmente la forma en que interactuamos con el contenido digital y las plataformas de entretenimiento.

📚 Documentación