Sobre Decart Oasis AI Minecraft

O primeiro modelo de IA jogável, em tempo real e de mundo aberto que gera jogabilidade quadro a quadro, desenvolvido pela Decart AI.

🎮 Visão geral do projeto

Oasis AI Minecraft, desenvolvido pela Decart AI em colaboração com Etched, representa uma conquista inovadora na tecnologia de jogos de IA. É um videogame interativo gerado de ponta a ponta por um transformador quadro a quadro.

Ao contrário dos jogos tradicionais, o Oasis utiliza a entrada do teclado e do mouse do usuário e gera jogabilidade em tempo real, simulando internamente a física, as regras do jogo e os gráficos. O modelo aprendeu a permitir que os usuários se movimentassem, pulassem, pegassem itens, quebrassem blocos e muito mais, tudo isso assistindo diretamente ao jogo.

Este projeto revolucionário combina pesquisa de ponta em IA com otimização avançada de hardware, marcando o primeiro passo em direção a modelos fundamentais que simulam mundos interativos mais complexos, potencialmente substituindo motores de jogos clássicos em um futuro orientado por IA.

Arquitetura Técnica

🔄 Construindo uma Nova Arquitetura Interativa

Executamos centenas de experimentos de arquitetura e dados para identificar a melhor arquitetura para geração rápida de vídeo interativo autorregressivo. Ao contrário dos modelos bidirecionais tradicionais, nossa arquitetura é projetada especificamente para geração quadro a quadro em tempo real com condicionamento de entrada do usuário.

Oasis's ViT + DiT architecture

Arquitetura ViT DiT do Oasis com autoencoder variacional baseado em Transformer e atenção espaço-temporal acelerada

🎯Principais recursos

  • Geração quadro a quadro condicionada à entrada do usuário
  • Autoencodificador variacional baseado em transformador (ViT VAE)
  • Mecanismo de atenção espaçotemporal causal e axial acelerado

💡Inovações Técnicas

  • Ruído dinâmico no momento da inferência para maior estabilidade
  • Kernels de inferência otimizados para desempenho em tempo real
  • Camadas adicionais de atenção temporal para contexto de quadro

🧠 Tecnologia de modelo de IA

Oasis utiliza uma combinação de treinamento de difusão e modelos de transformadores, inspirados em modelos avançados de linguagem grande (LLMs). O modelo gera vídeo quadro a quadro, condicionado pelas ações do usuário a cada instante.

A arquitetura apresenta um autoencoder variacional baseado em Transformer (ViT VAE) para compactar o tamanho da imagem e permitir que a difusão se concentre em características de nível superior, juntamente com um mecanismo de atenção espaço-temporal causal e axial acelerado.

🎯 Inovação do modelo de difusão

Ao contrário dos modelos bidirecionais, o Oasis gera quadros autoregressivamente, com a capacidade de condicionar cada quadro à entrada do jogo. Isso permite que os usuários interajam com o mundo em tempo real, em vez de apenas renderizar vídeos retroativamente.

O modelo emprega técnicas de forçamento de difusão e inclui camadas adicionais de atenção temporal intercaladas entre camadas de atenção espacial para fornecer contexto de quadros anteriores.

⚙️ Desempenho

🚀 Capacidades Atuais

  • Atinge tempo de inferência de 47 ms por quadro usando a estrutura de inferência proprietária da Decart
  • Funciona com resolução de 360p a 20fps em GPUs NVIDIA H100
  • Otimizado para jogabilidade em navegador da Web em tempo real com latência mínima

💫 Otimizações Futuras

  • O chip Sohu da Etched permitirá jogabilidade em resolução 4K
  • Pode atender 10 vezes mais usuários do que o hardware atual com o mesmo preço e consumo de energia
  • Visa tornar os jogos gerados por IA de alta qualidade mais acessíveis e econômicos

📊 Sohu permite 10 vezes mais usuários

(Análise de desempenho usando arquitetura Oasis ampliada para parâmetros de 100B)
20 FPS
Taxa de quadros em tempo real
4K
Chip Sohu suporta resolução
100x
Mais rápido que os modelos atuais
10x
Pode atender mais usuários

🔮 Desenvolvimento Futuro

🎯 Desafios Atuais

  • Melhorando a memória do modelo para melhor retenção de detalhes entre quadros
  • Melhorando a clareza da saída e reduzindo a nebulosidade em determinadas situações
  • Lidando com casos extremos e entradas fora da distribuição de treinamento do modelo

🌟 Visão Futura

A equipe está trabalhando ativamente no dimensionamento do modelo e dos conjuntos de dados, além de desenvolver técnicas de otimização adicionais para permitir um treinamento eficiente em grande escala.

Além dos jogos, o Oasis pretende expandir-se para a geração de vídeo multimodal totalmente interativo, revolucionando potencialmente a forma como interagimos com conteúdo digital e plataformas de entretenimento.

📚 Documentação