Decart Oasis AI Minecraft について

🎮 プロジェクト概要

Decart AI が Etched と協力して開発した Oasis AI Minecraft は、AI ゲームテクノロジーにおける画期的な成果です。これは、トランスフォーマーによってフレームごとにエンドツーエンドで生成されるインタラクティブなビデオゲームです。

従来のゲームとは異なり、Oasis はユーザーのキーボードとマウスの入力を受け取り、リアルタイムのゲームプレイを生成し、物理学、ゲームルール、グラフィックスを内部的にシミュレートします。このモデルは、ユーザーがゲームプレイを直接監視することで、動き回ったり、ジャンプしたり、アイテムを拾ったり、ブロックを壊したりできるようにすることを学習しました。

この革新的なプロジェクトは、最先端の AI 研究と高度なハードウェア最適化を組み合わせたもので、より複雑なインタラクティブな世界をシミュレートする基礎モデルへの第一歩を示し、AI 主導の未来で古典的なゲームエンジンを置き換える可能性があります。

⚡ 技術アーキテクチャ

🔄 新しいインタラクティブなアーキテクチャの構築

私たちは、高速な自己回帰インタラクティブビデオ生成に最適なアーキテクチャを特定するために、何百ものアーキテクチャ実験とデータ実験を実行しました。従来の双方向モデルとは異なり、当社のアーキテクチャは、ユーザー入力調整によるリアルタイムのフレームごとの生成に特化して設計されています。

Transformer ベースの変分オートエンコーダーと加速された時空間的注意を特徴とする Oasis の ViT DiT アーキテクチャ

🎯主な特長

ユーザー入力を条件としたフレームごとの生成
トランスベースの変分オートエンコーダー (ViT VAE)
加速された軸方向の因果的時空間的注意メカニズム

💡技術革新

推論時の動的ノイズによる安定性の向上
リアルタイムパフォーマンスのために最適化された推論カーネル
フレームコンテキスト用の追加の時間的アテンションレイヤー

🧠 AIモデル技術

Oasis は、高度なラージ言語モデル (LLM) からインスピレーションを得た、拡散トレーニングとトランスフォーマーモデルの組み合わせを利用します。このモデルは、各瞬間のユーザーのアクションに応じて、フレームごとにビデオを生成します。

このアーキテクチャは、画像サイズを圧縮し、より高いレベルの特性に焦点を当てた拡散を可能にする Transformer ベースの変分オートエンコーダ (ViT VAE) を特徴としており、加速された軸方向の因果的時空間的注意メカニズムも備えています。

🎯 普及モデルの革新

双方向モデルとは異なり、Oasis はゲーム入力に応じて各フレームを条件付ける機能を備え、自己回帰的にフレームを生成します。これにより、ユーザーは単にビデオを遡及的にレンダリングするのではなく、リアルタイムで世界と対話できるようになります。

このモデルは拡散強制技術を採用しており、前のフレームからのコンテキストを提供するために空間アテンションレイヤーの間にインターリーブされた追加の時間アテンションレイヤーが含まれています。

⚙️ パフォーマンス

🚀 現在の能力

Decart 独自の推論フレームワークを使用してフレームあたり 47ms の推論時間を実現
NVIDIA H100 GPU で 360p 解像度、20fps で実行
遅延を最小限に抑えたリアルタイム Web ブラウザゲームプレイ用に最適化されています。

💫 将来の最適化

Etched の Sohu チップにより 4K 解像度のゲームプレイが可能になります
同じ価格と消費電力で現在のハードウェアの 10 倍のユーザーにサービスを提供できる
AI によって生成された高品質のゲームをよりアクセスしやすく、コスト効率の高いものにすることを目指しています

📊 Sohu により 10 倍のユーザー数が可能に

(Oasis アーキテクチャを使用したパフォーマンス分析は 100B パラメータまでスケールアップ)

20 FPS

リアルタイムフレームレート

Sohuチップが解像度をサポート

100x

現在のモデルよりも高速

10x

より多くのユーザーにサービスを提供できる

🔮 今後の展開

🎯 現在の課題

モデルのメモリを改善し、フレーム全体でディテールの保持を改善
特定の状況における出力の明瞭性を高め、かすみを軽減します。
エッジケースとモデルのトレーニング分布外の入力の処理

🌟 将来のビジョン

チームは、効率的な大規模トレーニングを可能にする追加の最適化手法の開発と並行して、モデルとデータセットのスケーリングに積極的に取り組んでいます。

オアシスはゲームを超えて、完全なインタラクティブなマルチモーダルビデオ生成への拡大を目指しており、デジタルコンテンツやエンターテイメントプラットフォームとの関わり方に革命を起こす可能性があります。