O primeiro modelo de IA jogável, em tempo real e de mundo aberto que gera jogabilidade quadro a quadro, desenvolvido pela Decart AI.
Oasis AI Minecraft, desenvolvido pela Decart AI em colaboração com Etched, representa uma conquista inovadora na tecnologia de jogos de IA. É um videogame interativo gerado de ponta a ponta por um transformador quadro a quadro.
Ao contrário dos jogos tradicionais, o Oasis utiliza a entrada do teclado e do mouse do usuário e gera jogabilidade em tempo real, simulando internamente a física, as regras do jogo e os gráficos. O modelo aprendeu a permitir que os usuários se movimentassem, pulassem, pegassem itens, quebrassem blocos e muito mais, tudo isso assistindo diretamente ao jogo.
Este projeto revolucionário combina pesquisa de ponta em IA com otimização avançada de hardware, marcando o primeiro passo em direção a modelos fundamentais que simulam mundos interativos mais complexos, potencialmente substituindo motores de jogos clássicos em um futuro orientado por IA.
Executamos centenas de experimentos de arquitetura e dados para identificar a melhor arquitetura para geração rápida de vídeo interativo autorregressivo. Ao contrário dos modelos bidirecionais tradicionais, nossa arquitetura é projetada especificamente para geração quadro a quadro em tempo real com condicionamento de entrada do usuário.
Arquitetura ViT DiT do Oasis com autoencoder variacional baseado em Transformer e atenção espaço-temporal acelerada
Oasis utiliza uma combinação de treinamento de difusão e modelos de transformadores, inspirados em modelos avançados de linguagem grande (LLMs). O modelo gera vídeo quadro a quadro, condicionado pelas ações do usuário a cada instante.
A arquitetura apresenta um autoencoder variacional baseado em Transformer (ViT VAE) para compactar o tamanho da imagem e permitir que a difusão se concentre em características de nível superior, juntamente com um mecanismo de atenção espaço-temporal causal e axial acelerado.
Ao contrário dos modelos bidirecionais, o Oasis gera quadros autoregressivamente, com a capacidade de condicionar cada quadro à entrada do jogo. Isso permite que os usuários interajam com o mundo em tempo real, em vez de apenas renderizar vídeos retroativamente.
O modelo emprega técnicas de forçamento de difusão e inclui camadas adicionais de atenção temporal intercaladas entre camadas de atenção espacial para fornecer contexto de quadros anteriores.
A equipe está trabalhando ativamente no dimensionamento do modelo e dos conjuntos de dados, além de desenvolver técnicas de otimização adicionais para permitir um treinamento eficiente em grande escala.
Além dos jogos, o Oasis pretende expandir-se para a geração de vídeo multimodal totalmente interativo, revolucionando potencialmente a forma como interagimos com conteúdo digital e plataformas de entretenimento.