关于Decart Oasis AI Minecraft

由 Decart AI 开发的第一个可玩、实时、开放世界的 AI 模型,可逐帧生成游戏玩法。

🎮 项目概况

Oasis AI Minecraft 由 Decart AI 与 Etched 合作开发,代表了 AI 游戏技术的突破性成就。 这是一款由 Transformer 逐帧生成的交互式视频游戏。

与传统游戏不同,Oasis 接受用户键盘和鼠标输入并生成实时游戏玩法,在内部模拟物理、游戏规则和图形。 该模型学会了让用户通过直接观看游戏玩法来移动、跳跃、拾取物品、打破方块等。

这个革命性的项目将尖端的人工智能研究与先进的硬件优化相结合,标志着向模拟更复杂的交互世界的基础模型迈出了第一步,有可能在人工智能驱动的未来取代经典的游戏引擎。

技术架构

🔄 构建新的交互架构

我们进行了数百次架构和数据实验,以确定快速自回归交互式视频生成的最佳架构。 与传统的双向模型不同,我们的架构是专门为实时、逐帧生成和用户输入调节而设计的。

Oasis's ViT + DiT architecture

Oasis 的 ViT DiT 架构具有基于 Transformer 的变分自动编码器和加速时空注意力

🎯主要特点

  • 根据用户输入进行逐帧生成
  • 基于 Transformer 的变分自动编码器 (ViT VAE)
  • 加速轴向、因果时空注意力机制

💡技术创新

  • 推理时的动态噪声可提高稳定性
  • 针对实时性能优化的推理内核
  • 用于帧上下文的附加时间注意层

🧠 人工智能模型技术

受高级大语言模型 (LLM) 的启发,Oasis 结合了扩散训练和 Transformer 模型。 该模型逐帧生成视频,并以用户在每个时刻的操作为条件。

该架构采用基于 Transformer 的变分自动编码器 (ViT VAE) 来压缩图像大小并使扩散能够专注于更高级别的特征,以及加速的轴向因果时空注意机制。

🎯 扩散模式创新

与双向模型不同,Oasis 以自回归方式生成帧,能够根据游戏输入调节每个帧。 这使用户能够与世界实时交互,而不仅仅是回顾性地渲染视频。

该模型采用扩散强制技术,并包括在空间注意层之间交错的附加时间注意层,以提供来自先前帧的上下文。

⚙️ 表现

🚀 目前的能力

  • 使用 Decart 专有的推理框架实现每帧 47 毫秒的推理时间
  • 在 NVIDIA H100 GPU 上以 360p 分辨率、20fps 运行
  • 针对实时网络浏览器游戏进行了优化,延迟最小

💫 未来的优化

  • Etched的搜狐芯片将支持4K分辨率游戏
  • 在相同的价格和功耗下,可以为比当前硬件多 10 倍的用户提供服务
  • 旨在让高质量的人工智能生成游戏更容易获得且更具成本效益

📊 搜狐使用户数量增加了 10 倍

(使用 Oasis 架构进行性能分析,扩展到 100B 参数)
20 FPS
实时帧率
4K
搜狐芯片支持分辨率
100x
比当前型号更快
10x
可以服务更多的用户

🔮 未来发展

🎯 当前的挑战

  • 提高模型内存,更好地保留跨帧的细节
  • 提高输出清晰度并减少某些情况下的模糊度
  • 处理模型训练分布之外的边缘情况和输入

🌟 未来愿景

该团队正在积极致力于扩展模型和数据集,同时开发额外的优化技术以实现高效的大规模训练。

除了游戏之外,Oasis 还致力于扩展到完整的交互式多模式视频生成领域,这可能会彻底改变我们与数字内容和娱乐平台的交互方式。

📚 文档