Про Decart Oasis AI Minecraft

Перша модель штучного інтелекту у реальному часі з відкритим світом, яка генерує ігровий процес на покадровій основі, розроблена Decart AI.

🎮 Огляд проекту

Oasis AI Minecraft, розроблений Decart AI у співпраці з Etched, являє собою новаторське досягнення в ігровій технології штучного інтелекту. Це інтерактивна відеогра, створена наскрізно за допомогою трансформатора на основі кадр за кадром.

На відміну від традиційних ігор, Oasis приймає дані користувача з клавіатури та миші та генерує ігровий процес у реальному часі, внутрішньо моделюючи фізику, правила гри та графіку. Модель навчилася дозволяти користувачам пересуватися, стрибати, підбирати предмети, розбивати блоки тощо, спостерігаючи за процесом гри безпосередньо.

Цей революційний проект поєднує передові дослідження штучного інтелекту з вдосконаленою оптимізацією апаратного забезпечення, знаменуючи собою перший крок до базових моделей, які імітують складніші інтерактивні світи, потенційно замінюючи класичні ігрові движки в майбутньому, керованому штучним інтелектом.

Технічна архітектура

🔄 Створення нової інтерактивної архітектури

Ми провели сотні експериментів з архітектурою та даними, щоб визначити найкращу архітектуру для швидкої авторегресійної генерації інтерактивного відео. На відміну від традиційних двонаправлених моделей, наша архітектура спеціально розроблена для покадрової генерації в реальному часі з кондиціонуванням введення користувачем.

Oasis's ViT + DiT architecture

Архітектура ViT DiT Oasis із варіаційним автокодером на основі трансформатора та прискореним просторово-часовим контролем

🎯Ключові характеристики

  • Покадрова генерація залежно від введення користувачем
  • Варіаційний автокодер на основі трансформатора (ViT VAE)
  • Прискорений осьовий механізм причинно-просторової уваги

💡Технічні інновації

  • Динамічний шум під час висновку для підвищення стабільності
  • Оптимізовані ядра висновку для продуктивності в реальному часі
  • Додаткові часові шари уваги для контексту кадру

🧠 Технологія моделі ШІ

Oasis використовує комбінацію дифузійного навчання та трансформаторних моделей, натхненних вдосконаленими широкомовними моделями (LLM). Модель генерує відео на покадрової основі, залежно від дій користувача в кожен момент.

Архітектура включає варіаційний автокодер на основі трансформатора (ViT VAE), який стискає розмір зображення та дозволяє дифузію зосереджувати на характеристиках вищого рівня, а також механізм прискореного осьового, причинно-просторово-часового уваги.

🎯 Інноваційна модель дифузії

На відміну від двонаправлених моделей, Oasis генерує кадри авторегресійно, з можливістю обумовлювати кожен кадр вхідними даними гри. Це дозволяє користувачам взаємодіяти зі світом у режимі реального часу, а не просто рендерити відео заднім числом.

Модель використовує методи дифузійного примусу та включає додаткові часові шари уваги, чергувані між просторовими шарами уваги, щоб забезпечити контекст із попередніх кадрів.

⚙️ Продуктивність

🚀 Поточні можливості

  • Досягає часу висновку 47 мс на кадр, використовуючи власну структуру висновку Decart
  • Працює з роздільною здатністю 360p зі швидкістю 20 кадрів/с на графічних процесорах NVIDIA H100
  • Оптимізовано для гри в веб-браузері в реальному часі з мінімальною затримкою

💫 Майбутні оптимізації

  • Чіп Sohu від Etched дозволить грати в роздільній здатності 4K
  • Може обслуговувати в 10 разів більше користувачів, ніж поточне обладнання за тієї ж ціни та споживання енергії
  • Прагне зробити високоякісні ігри, створені штучним інтелектом, більш доступними та економічно ефективними

📊 Sohu дозволяє в 10 разів більше користувачів

(Аналіз продуктивності з використанням архітектури Oasis з масштабом до 100 Б параметрів)
20 FPS
Частота кадрів у реальному часі
4K
Чіп Sohu підтримує роздільну здатність
100x
Швидше, ніж поточні моделі
10x
Може обслуговувати більше користувачів

🔮 Майбутній розвиток

🎯 Поточні виклики

  • Покращення пам’яті моделі для кращого збереження деталей у кадрах
  • Підвищення чіткості виводу та зменшення розпливчастості в певних ситуаціях
  • Обробка граничних випадків і вхідних даних за межами навчального розподілу моделі

🌟 Бачення майбутнього

Команда активно працює над масштабуванням моделі та наборів даних, а також розробляє додаткові методи оптимізації для ефективного масштабного навчання.

Крім ігор, Oasis прагне розширитися до повної інтерактивної мультимодальної генерації відео, потенційно революціонізуючи нашу взаємодію з цифровим контентом і розважальними платформами.

📚 Документація