เกี่ยวกับ Decart Oasis AI Minecraft

โมเดล AI โลกเปิดแบบเรียลไทม์ที่สามารถเล่นได้ตัวแรกที่สร้างการเล่นเกมแบบเฟรมต่อเฟรม พัฒนาโดย Decart AI

🎮 ภาพรวมโครงการ

Oasis AI Minecraft พัฒนาโดย Decart AI ร่วมกับ Etched แสดงถึงความสำเร็จครั้งยิ่งใหญ่ในเทคโนโลยีเกม AI เป็นวิดีโอเกมแบบโต้ตอบที่สร้างขึ้นจากต้นทางถึงปลายทางโดยหม้อแปลงไฟฟ้าแบบเฟรมต่อเฟรม

แตกต่างจากเกมทั่วไป Oasis ใช้คีย์บอร์ดและเมาส์ของผู้ใช้และสร้างการเล่นเกมแบบเรียลไทม์ จำลองฟิสิกส์ กฎของเกม และกราฟิกภายใน โมเดลเรียนรู้เพื่อให้ผู้ใช้สามารถเคลื่อนที่ กระโดด หยิบไอเท็ม ทำลายบล็อก และอื่นๆ อีกมากมายได้โดยการรับชมการเล่นเกมโดยตรง

โครงการปฏิวัตินี้ผสมผสานการวิจัย AI ที่ล้ำสมัยเข้ากับการเพิ่มประสิทธิภาพฮาร์ดแวร์ขั้นสูง ถือเป็นก้าวแรกสู่โมเดลพื้นฐานที่จำลองโลกเชิงโต้ตอบที่ซับซ้อนยิ่งขึ้น ซึ่งอาจเข้ามาแทนที่เอนจิ้นเกมคลาสสิกในอนาคตที่ขับเคลื่อนด้วย AI

สถาปัตยกรรมทางเทคนิค

🔄 การสร้างสถาปัตยกรรมเชิงโต้ตอบใหม่

เราทำการทดสอบสถาปัตยกรรมและข้อมูลหลายร้อยครั้งเพื่อระบุสถาปัตยกรรมที่ดีที่สุดสำหรับการสร้างวิดีโอโต้ตอบอัตโนมัติแบบถดถอยที่รวดเร็ว สถาปัตยกรรมของเราได้รับการออกแบบมาโดยเฉพาะสำหรับการสร้างแบบเรียลไทม์แบบเฟรมต่อเฟรมด้วยการปรับเงื่อนไขอินพุตของผู้ใช้ ต่างจากโมเดลสองทิศทางแบบดั้งเดิม

Oasis's ViT + DiT architecture

สถาปัตยกรรม ViT DiT ของ Oasis นำเสนอตัวเข้ารหัสอัตโนมัติแบบแปรผันที่ใช้ Transformer และความสนใจเชิงพื้นที่ที่เร่งขึ้น

🎯คุณสมบัติที่สำคัญ

  • การสร้างแบบเฟรมต่อเฟรมขึ้นอยู่กับอินพุตของผู้ใช้
  • ตัวเข้ารหัสอัตโนมัติแบบแปรผันที่ใช้หม้อแปลง (ViT VAE)
  • กลไกความสนใจเชิงพื้นที่แบบเร่งแกนและเชิงสาเหตุ

💡นวัตกรรมทางเทคนิค

  • สัญญาณรบกวนแบบไดนามิก ณ เวลาอนุมานเพื่อความเสถียรที่เพิ่มขึ้น
  • เคอร์เนลการอนุมานที่ได้รับการปรับปรุงเพื่อประสิทธิภาพแบบเรียลไทม์
  • ชั้นความสนใจชั่วคราวเพิ่มเติมสำหรับบริบทของเฟรม

🧠 เทคโนโลยีโมเดล AI

Oasis ใช้การผสมผสานระหว่างการฝึกแบบแพร่กระจายและโมเดลหม้อแปลง ซึ่งได้รับแรงบันดาลใจจากโมเดลภาษาขนาดใหญ่ขั้นสูง (LLM) โมเดลจะสร้างวิดีโอแบบเฟรมต่อเฟรม โดยขึ้นอยู่กับการกระทำของผู้ใช้ในแต่ละขณะ

สถาปัตยกรรมนี้มีตัวเข้ารหัสอัตโนมัติแบบแปรผันที่ใช้ Transformer (ViT VAE) เพื่อบีบอัดขนาดภาพและทำให้การแพร่กระจายสามารถมุ่งเน้นไปที่คุณลักษณะระดับสูงกว่า พร้อมด้วยกลไกความสนใจเชิงพื้นที่เชิงสาเหตุเชิงแกนแบบเร่ง

🎯 นวัตกรรมรูปแบบการแพร่กระจาย

ต่างจากโมเดลแบบสองทิศทางตรงที่ Oasis สร้างเฟรมแบบถดถอยอัตโนมัติ โดยมีความสามารถในการกำหนดเงื่อนไขแต่ละเฟรมในอินพุตเกม ช่วยให้ผู้ใช้สามารถโต้ตอบกับโลกได้แบบเรียลไทม์ แทนที่จะเรนเดอร์วิดีโอย้อนหลัง

แบบจำลองนี้ใช้เทคนิคการบังคับการแพร่กระจาย และรวมเลเยอร์ความสนใจชั่วคราวเพิ่มเติมที่แทรกอยู่ระหว่างเลเยอร์ความสนใจเชิงพื้นที่ เพื่อให้บริบทจากเฟรมก่อนหน้า

⚙️ ผลงาน

🚀 ความสามารถในปัจจุบัน

  • บรรลุเวลาในการอนุมาน 47 มิลลิวินาทีต่อเฟรมโดยใช้เฟรมเวิร์กการอนุมานที่เป็นกรรมสิทธิ์ของ Decart
  • ทำงานที่ความละเอียด 360p ที่ 20fps บน NVIDIA H100 GPU
  • ปรับให้เหมาะสมสำหรับการเล่นเกมเว็บเบราว์เซอร์แบบเรียลไทม์โดยมีความหน่วงน้อยที่สุด

💫 การเพิ่มประสิทธิภาพในอนาคต

  • ชิป Sohu ของ Etched จะช่วยให้สามารถเล่นเกมความละเอียด 4K ได้
  • สามารถรองรับผู้ใช้ได้มากกว่าฮาร์ดแวร์ปัจจุบันถึง 10 เท่าในราคาและการใช้พลังงานเท่าเดิม
  • มุ่งหวังที่จะทำให้เกมคุณภาพสูงที่สร้างโดย AI เข้าถึงได้ง่ายและคุ้มต้นทุนมากขึ้น

📊 Sohu ช่วยให้ผู้ใช้เพิ่มขึ้น 10 เท่า

(การวิเคราะห์ประสิทธิภาพโดยใช้สถาปัตยกรรม Oasis ปรับขนาดได้ถึง 100B พารามิเตอร์)
20 FPS
อัตราเฟรมเรียลไทม์
4K
Sohu Chip รองรับความละเอียด
100x
เร็วกว่ารุ่นปัจจุบัน
10x
สามารถให้บริการผู้ใช้ได้มากขึ้น

🔮 การพัฒนาในอนาคต

🎯 ความท้าทายในปัจจุบัน

  • การปรับปรุงหน่วยความจำโมเดลเพื่อการรักษารายละเอียดที่ดีขึ้นในเฟรมต่างๆ
  • เพิ่มความชัดเจนของเอาต์พุตและลดความคลุมเครือในบางสถานการณ์
  • การจัดการเคส Edge และอินพุตที่อยู่นอกการกระจายการฝึกของโมเดล

🌟 วิสัยทัศน์ในอนาคต

ทีมงานกำลังทำงานอย่างแข็งขันในการปรับขนาดโมเดลและชุดข้อมูล ควบคู่ไปกับการพัฒนาเทคนิคการปรับให้เหมาะสมเพิ่มเติมเพื่อให้สามารถฝึกอบรมขนาดใหญ่ได้อย่างมีประสิทธิภาพ

นอกเหนือจากการเล่นเกม Oasis ตั้งเป้าที่จะขยายไปสู่การสร้างวิดีโอแบบโต้ตอบหลายรูปแบบเต็มรูปแบบ ซึ่งอาจปฏิวัติวิธีที่เราโต้ตอบกับเนื้อหาดิจิทัลและแพลตฟอร์มความบันเทิง

📚 เอกสารประกอบ