Первая игровая модель искусственного интеллекта в открытом мире в реальном времени, которая генерирует игровой процесс покадрово, разработанная Decart AI.
Oasis AI Minecraft, разработанный Decart AI в сотрудничестве с Etched, представляет собой новаторское достижение в области игровых технологий искусственного интеллекта. Это интерактивная видеоигра, непрерывно генерируемая преобразователем на покадровой основе.
В отличие от традиционных игр, Oasis использует ввод данных с помощью клавиатуры и мыши и генерирует игровой процесс в реальном времени, внутренне моделируя физику, правила игры и графику. Модель научилась позволять пользователям передвигаться, прыгать, подбирать предметы, разбивать блоки и многое другое, и все это благодаря непосредственному наблюдению за игровым процессом.
Этот революционный проект сочетает в себе передовые исследования в области искусственного интеллекта с передовой оптимизацией оборудования, знаменуя собой первый шаг к фундаментальным моделям, которые моделируют более сложные интерактивные миры и потенциально заменяют классические игровые движки в будущем, основанном на искусственном интеллекте.
Мы провели сотни архитектурных экспериментов и экспериментов с данными, чтобы определить лучшую архитектуру для быстрой авторегрессионной интерактивной генерации видео. В отличие от традиционных двунаправленных моделей, наша архитектура специально разработана для покадровой генерации в реальном времени с обработкой входных данных пользователя.
Архитектура Oasis ViT DiT с вариационным автоэнкодером на основе трансформатора и ускоренным пространственно-временным вниманием.
Oasis использует комбинацию моделей диффузного обучения и моделей преобразователей, вдохновленных передовыми моделями большого языка (LLM). Модель генерирует видео покадрово, в зависимости от действий пользователя в каждый момент времени.
Архитектура включает в себя вариационный автокодировщик на основе трансформатора (ViT VAE), который сжимает размер изображения и позволяет диффузии сосредоточиться на характеристиках более высокого уровня, а также ускоренный осевой, каузальный пространственно-временной механизм внимания.
В отличие от двунаправленных моделей, Oasis генерирует кадры авторегрессионным способом с возможностью обуславливать каждый кадр входными данными игры. Это позволяет пользователям взаимодействовать с миром в режиме реального времени, а не просто рендерить видео задним числом.
Модель использует методы диффузионного воздействия и включает дополнительные временные уровни внимания, чередующиеся между пространственными уровнями внимания, чтобы обеспечить контекст из предыдущих кадров.
Команда активно работает над масштабированием модели и наборов данных, а также над разработкой дополнительных методов оптимизации, обеспечивающих эффективное крупномасштабное обучение.
Помимо игр, Oasis стремится перейти к созданию полностью интерактивного мультимодального видео, потенциально совершив революцию в том, как мы взаимодействуем с цифровым контентом и развлекательными платформами.