關於Decart Oasis AI Minecraft

由 Decart AI 開發的第一個可玩、即時、開放世界的 AI 模型,可逐幀生成遊戲玩法。

🎮 項目概況

Oasis AI Minecraft 由 Decart AI 與 Etched 合作開發,代表了 AI 遊戲技術的突破性成就。 這是一款由 Transformer 逐幀產生的互動式視訊遊戲。

與傳統遊戲不同,Oasis 接受使用者鍵盤和滑鼠輸入並產生即時遊戲玩法,在內部模擬實體、遊戲規則和圖形。 該模型學會了讓用戶透過直接觀看遊戲玩法來移動、跳躍、拾取物品、打破方塊等。

這個革命性的項目將尖端的人工智慧研究與先進的硬體優化相結合,標誌著向模擬更複雜的互動世界的基礎模型邁出了第一步,有可能在人工智慧驅動的未來取代經典的遊戲引擎。

技術架構

🔄 建構新的互動架構

我們進行了數百次架構和數據實驗,以確定快速自回歸互動式影片產生的最佳架構。 與傳統的雙向模型不同,我們的架構是專門為即時、逐幀生成和用戶輸入調節而設計的。

Oasis's ViT + DiT architecture

Oasis 的 ViT DiT 架構具有基於 Transformer 的變分自動編碼器和加速時空注意力

🎯主要特點

  • 根據使用者輸入進行逐幀生成
  • 基於 Transformer 的變分自動編碼器 (ViT VAE)
  • 加速軸向、因果時空注意力機制

💡技術創新

  • 推理時的動態雜訊可提高穩定性
  • 針對即時效能最佳化的推理內核
  • 用於幀上下文的附加時間注意層

🧠 人工智慧模型技術

受高階大語言模型 (LLM) 的啟發,Oasis 結合了擴散訓練和 Transformer 模型。 該模型逐幀生成視頻,並以用戶在每個時刻的操作為條件。

該架構採用基於 Transformer 的變分自動編碼器 (ViT VAE) 來壓縮影像大小並使擴散能夠專注於更高層級的特徵,以及加速的軸向因果時空注意機制。

🎯 擴散模式創新

與雙向模型不同,Oasis 以自回歸方式產生幀,能夠根據遊戲輸入調節每個幀。 這使用戶能夠與世界即時交互,而不僅僅是回顧性地渲染影片。

該模型採用擴散強制技術,並包括在空間注意層之間交錯的附加時間注意層,以提供來自先前幀的上下文。

⚙️ 表現

🚀 目前的能力

  • 使用 Decart 專有的推理框架實現每幀 47 毫秒的推理時間
  • 在 NVIDIA H100 GPU 上以 360p 解析度、20fps 運行
  • 針對即時網路瀏覽器遊戲進行了最佳化,延遲最小

💫 未來的最佳化

  • Etched的搜狐晶片將支援4K解析度遊戲
  • 在相同的價格和功耗下,可以為比目前硬體多 10 倍的用戶提供服務
  • 旨在讓高品質的人工智慧生成遊戲更容易獲得且更具成本效益

📊 搜狐使用戶數量增加了 10 倍

(使用 Oasis 架構進行效能分析,擴展到 100B 參數)
20 FPS
即時幀率
4K
搜狐晶片支援分辨率
100x
比目前型號更快
10x
可以服務更多的用戶

🔮 未來發展

🎯 當前的挑戰

  • 提高模型內存,更好地保留跨幀的細節
  • 提高輸出清晰度並減少某些情況下的模糊度
  • 處理模型訓練分佈之外的邊緣情況和輸入

🌟 未來願景

該團隊正在積極致力於擴展模型和資料集,同時開發額外的最佳化技術以實現高效的大規模訓練。

除了遊戲之外,Oasis 還致力於擴展到完整的互動式多模式視訊生成領域,這可能會徹底改變我們與數位內容和娛樂平台的互動方式。

📚 文件