Decart AI によって開発された、フレームごとにゲームプレイを生成する初のプレイ可能なリアルタイム オープンワールド AI モデル。
Decart AI が Etched と協力して開発した Oasis AI Minecraft は、AI ゲーム テクノロジーにおける画期的な成果です。 これは、トランスフォーマーによってフレームごとにエンドツーエンドで生成されるインタラクティブなビデオ ゲームです。
従来のゲームとは異なり、Oasis はユーザーのキーボードとマウスの入力を受け取り、リアルタイムのゲームプレイを生成し、物理学、ゲーム ルール、グラフィックスを内部的にシミュレートします。 このモデルは、ユーザーがゲームプレイを直接監視することで、動き回ったり、ジャンプしたり、アイテムを拾ったり、ブロックを壊したりできるようにすることを学習しました。
この革新的なプロジェクトは、最先端の AI 研究と高度なハードウェア最適化を組み合わせたもので、より複雑なインタラクティブな世界をシミュレートする基礎モデルへの第一歩を示し、AI 主導の未来で古典的なゲーム エンジンを置き換える可能性があります。
私たちは、高速な自己回帰インタラクティブビデオ生成に最適なアーキテクチャを特定するために、何百ものアーキテクチャ実験とデータ実験を実行しました。 従来の双方向モデルとは異なり、当社のアーキテクチャは、ユーザー入力調整によるリアルタイムのフレームごとの生成に特化して設計されています。
Transformer ベースの変分オートエンコーダーと加速された時空間的注意を特徴とする Oasis の ViT DiT アーキテクチャ
Oasis は、高度なラージ言語モデル (LLM) からインスピレーションを得た、拡散トレーニングとトランスフォーマー モデルの組み合わせを利用します。 このモデルは、各瞬間のユーザーのアクションに応じて、フレームごとにビデオを生成します。
このアーキテクチャは、画像サイズを圧縮し、より高いレベルの特性に焦点を当てた拡散を可能にする Transformer ベースの変分オートエンコーダ (ViT VAE) を特徴としており、加速された軸方向の因果的時空間的注意メカニズムも備えています。
双方向モデルとは異なり、Oasis はゲーム入力に応じて各フレームを条件付ける機能を備え、自己回帰的にフレームを生成します。 これにより、ユーザーは単にビデオを遡及的にレンダリングするのではなく、リアルタイムで世界と対話できるようになります。
このモデルは拡散強制技術を採用しており、前のフレームからのコンテキストを提供するために空間アテンション レイヤーの間にインターリーブされた追加の時間アテンション レイヤーが含まれています。
チームは、効率的な大規模トレーニングを可能にする追加の最適化手法の開発と並行して、モデルとデータセットのスケーリングに積極的に取り組んでいます。
オアシスはゲームを超えて、完全なインタラクティブなマルチモーダルビデオ生成への拡大を目指しており、デジタルコンテンツやエンターテイメントプラットフォームとの関わり方に革命を起こす可能性があります。