Перша модель штучного інтелекту у реальному часі з відкритим світом, яка генерує ігровий процес на покадровій основі, розроблена Decart AI.
Oasis AI Minecraft, розроблений Decart AI у співпраці з Etched, являє собою новаторське досягнення в ігровій технології штучного інтелекту. Це інтерактивна відеогра, створена наскрізно за допомогою трансформатора на основі кадр за кадром.
На відміну від традиційних ігор, Oasis приймає дані користувача з клавіатури та миші та генерує ігровий процес у реальному часі, внутрішньо моделюючи фізику, правила гри та графіку. Модель навчилася дозволяти користувачам пересуватися, стрибати, підбирати предмети, розбивати блоки тощо, спостерігаючи за процесом гри безпосередньо.
Цей революційний проект поєднує передові дослідження штучного інтелекту з вдосконаленою оптимізацією апаратного забезпечення, знаменуючи собою перший крок до базових моделей, які імітують складніші інтерактивні світи, потенційно замінюючи класичні ігрові движки в майбутньому, керованому штучним інтелектом.
Ми провели сотні експериментів з архітектурою та даними, щоб визначити найкращу архітектуру для швидкої авторегресійної генерації інтерактивного відео. На відміну від традиційних двонаправлених моделей, наша архітектура спеціально розроблена для покадрової генерації в реальному часі з кондиціонуванням введення користувачем.
Архітектура ViT DiT Oasis із варіаційним автокодером на основі трансформатора та прискореним просторово-часовим контролем
Oasis використовує комбінацію дифузійного навчання та трансформаторних моделей, натхненних вдосконаленими широкомовними моделями (LLM). Модель генерує відео на покадрової основі, залежно від дій користувача в кожен момент.
Архітектура включає варіаційний автокодер на основі трансформатора (ViT VAE), який стискає розмір зображення та дозволяє дифузію зосереджувати на характеристиках вищого рівня, а також механізм прискореного осьового, причинно-просторово-часового уваги.
На відміну від двонаправлених моделей, Oasis генерує кадри авторегресійно, з можливістю обумовлювати кожен кадр вхідними даними гри. Це дозволяє користувачам взаємодіяти зі світом у режимі реального часу, а не просто рендерити відео заднім числом.
Модель використовує методи дифузійного примусу та включає додаткові часові шари уваги, чергувані між просторовими шарами уваги, щоб забезпечити контекст із попередніх кадрів.
Команда активно працює над масштабуванням моделі та наборів даних, а також розробляє додаткові методи оптимізації для ефективного масштабного навчання.
Крім ігор, Oasis прагне розширитися до повної інтерактивної мультимодальної генерації відео, потенційно революціонізуючи нашу взаємодію з цифровим контентом і розважальними платформами.