О Decart Oasis AI Minecraft

Первая игровая модель искусственного интеллекта в открытом мире в реальном времени, которая генерирует игровой процесс покадрово, разработанная Decart AI.

🎮 Обзор проекта

Oasis AI Minecraft, разработанный Decart AI в сотрудничестве с Etched, представляет собой новаторское достижение в области игровых технологий искусственного интеллекта. Это интерактивная видеоигра, непрерывно генерируемая преобразователем на покадровой основе.

В отличие от традиционных игр, Oasis использует ввод данных с помощью клавиатуры и мыши и генерирует игровой процесс в реальном времени, внутренне моделируя физику, правила игры и графику. Модель научилась позволять пользователям передвигаться, прыгать, подбирать предметы, разбивать блоки и многое другое, и все это благодаря непосредственному наблюдению за игровым процессом.

Этот революционный проект сочетает в себе передовые исследования в области искусственного интеллекта с передовой оптимизацией оборудования, знаменуя собой первый шаг к фундаментальным моделям, которые моделируют более сложные интерактивные миры и потенциально заменяют классические игровые движки в будущем, основанном на искусственном интеллекте.

Техническая Архитектура

🔄 Создание новой интерактивной архитектуры

Мы провели сотни архитектурных экспериментов и экспериментов с данными, чтобы определить лучшую архитектуру для быстрой авторегрессионной интерактивной генерации видео. В отличие от традиционных двунаправленных моделей, наша архитектура специально разработана для покадровой генерации в реальном времени с обработкой входных данных пользователя.

Oasis's ViT + DiT architecture

Архитектура Oasis ViT DiT с вариационным автоэнкодером на основе трансформатора и ускоренным пространственно-временным вниманием.

🎯Ключевые особенности

  • Покадровая генерация в зависимости от ввода пользователя
  • Вариационный автоэнкодер на основе трансформатора (ВиТ ВАЭ)
  • Ускоренный осевой каузальный пространственно-временной механизм внимания

💡Технические инновации

  • Динамический шум во время вывода для повышения стабильности
  • Оптимизированные ядра вывода для производительности в реальном времени.
  • Дополнительные уровни временного внимания для контекста кадра

🧠 Технология моделирования искусственного интеллекта

Oasis использует комбинацию моделей диффузного обучения и моделей преобразователей, вдохновленных передовыми моделями большого языка (LLM). Модель генерирует видео покадрово, в зависимости от действий пользователя в каждый момент времени.

Архитектура включает в себя вариационный автокодировщик на основе трансформатора (ViT VAE), который сжимает размер изображения и позволяет диффузии сосредоточиться на характеристиках более высокого уровня, а также ускоренный осевой, каузальный пространственно-временной механизм внимания.

🎯 Инновационная модель диффузии

В отличие от двунаправленных моделей, Oasis генерирует кадры авторегрессионным способом с возможностью обуславливать каждый кадр входными данными игры. Это позволяет пользователям взаимодействовать с миром в режиме реального времени, а не просто рендерить видео задним числом.

Модель использует методы диффузионного воздействия и включает дополнительные временные уровни внимания, чередующиеся между пространственными уровнями внимания, чтобы обеспечить контекст из предыдущих кадров.

⚙️ Производительность

🚀 Текущие возможности

  • Достигается время вывода 47 мс на кадр с использованием собственной структуры вывода Decart.
  • Работает с разрешением 360p и частотой 20 кадров в секунду на графических процессорах NVIDIA H100.
  • Оптимизирован для игры в веб-браузере в реальном времени с минимальной задержкой.

💫 Будущие оптимизации

  • Чип Sohu от Etched обеспечит игровой процесс в разрешении 4K
  • Может обслуживать в 10 раз больше пользователей, чем нынешнее оборудование, при той же цене и энергопотреблении.
  • Цель: сделать высококачественные игры, созданные искусственным интеллектом, более доступными и экономичными.

📊 Sohu предоставляет в 10 раз больше пользователей

(Анализ производительности с использованием архитектуры Oasis, масштабируемой до 100 B параметров)
20 FPS
Частота кадров в реальном времени
4K
Чип Sohu поддерживает разрешение
100x
Быстрее, чем текущие модели
10x
Может обслуживать больше пользователей

🔮 Будущее развитие

🎯 Текущие проблемы

  • Улучшение памяти модели для лучшего сохранения деталей в кадрах.
  • Повышение четкости вывода и уменьшение нечеткости в определенных ситуациях.
  • Обработка крайних случаев и входных данных вне обучающего распределения модели.

🌟 Видение будущего

Команда активно работает над масштабированием модели и наборов данных, а также над разработкой дополнительных методов оптимизации, обеспечивающих эффективное крупномасштабное обучение.

Помимо игр, Oasis стремится перейти к созданию полностью интерактивного мультимодального видео, потенциально совершив революцию в том, как мы взаимодействуем с цифровым контентом и развлекательными платформами.

📚 Документация