由 Decart AI 开发的第一个可玩、实时、开放世界的 AI 模型,可逐帧生成游戏玩法。
Oasis AI Minecraft 由 Decart AI 与 Etched 合作开发,代表了 AI 游戏技术的突破性成就。 这是一款由 Transformer 逐帧生成的交互式视频游戏。
与传统游戏不同,Oasis 接受用户键盘和鼠标输入并生成实时游戏玩法,在内部模拟物理、游戏规则和图形。 该模型学会了让用户通过直接观看游戏玩法来移动、跳跃、拾取物品、打破方块等。
这个革命性的项目将尖端的人工智能研究与先进的硬件优化相结合,标志着向模拟更复杂的交互世界的基础模型迈出了第一步,有可能在人工智能驱动的未来取代经典的游戏引擎。
我们进行了数百次架构和数据实验,以确定快速自回归交互式视频生成的最佳架构。 与传统的双向模型不同,我们的架构是专门为实时、逐帧生成和用户输入调节而设计的。
Oasis 的 ViT DiT 架构具有基于 Transformer 的变分自动编码器和加速时空注意力
受高级大语言模型 (LLM) 的启发,Oasis 结合了扩散训练和 Transformer 模型。 该模型逐帧生成视频,并以用户在每个时刻的操作为条件。
该架构采用基于 Transformer 的变分自动编码器 (ViT VAE) 来压缩图像大小并使扩散能够专注于更高级别的特征,以及加速的轴向因果时空注意机制。
与双向模型不同,Oasis 以自回归方式生成帧,能够根据游戏输入调节每个帧。 这使用户能够与世界实时交互,而不仅仅是回顾性地渲染视频。
该模型采用扩散强制技术,并包括在空间注意层之间交错的附加时间注意层,以提供来自先前帧的上下文。
该团队正在积极致力于扩展模型和数据集,同时开发额外的优化技术以实现高效的大规模训练。
除了游戏之外,Oasis 还致力于扩展到完整的交互式多模式视频生成领域,这可能会彻底改变我们与数字内容和娱乐平台的交互方式。