حول Decart Oasis AI Minecraft

أول نموذج ذكاء اصطناعي قابل للتشغيل في الوقت الفعلي وعالم مفتوح يولد أسلوب لعب على أساس كل إطار على حدة، تم تطويره بواسطة Decart AI.

🎮 نظرة عامة على المشروع

تمثل Oasis AI Minecraft، التي طورتها شركة Decart AI بالتعاون مع Etched، إنجازًا رائدًا في تكنولوجيا ألعاب الذكاء الاصطناعي. إنها لعبة فيديو تفاعلية تم إنشاؤها من البداية إلى النهاية بواسطة محول على أساس إطار بإطار.

على عكس الألعاب التقليدية، تستقبل Oasis مدخلات لوحة المفاتيح والفأرة الخاصة بالمستخدم وتنشئ أسلوب لعب في الوقت الفعلي، ومحاكاة للفيزياء وقواعد اللعبة والرسومات داخليًا. تعلم النموذج السماح للمستخدمين بالتنقل، والقفز، والتقاط العناصر، وكسر الكتل، والمزيد، كل ذلك من خلال مشاهدة طريقة اللعب مباشرة.

يجمع هذا المشروع الثوري بين أحدث أبحاث الذكاء الاصطناعي والتحسين المتقدم للأجهزة، مما يمثل الخطوة الأولى نحو النماذج التأسيسية التي تحاكي عوالم تفاعلية أكثر تعقيدًا، ومن المحتمل أن تحل محل محركات الألعاب الكلاسيكية في مستقبل يعتمد على الذكاء الاصطناعي.

العمارة التقنية

🔄 بناء بنية تفاعلية جديدة

لقد أجرينا المئات من التجارب المعمارية وتجارب البيانات لتحديد أفضل بنية لإنشاء فيديو تفاعلي سريع الانحدار الذاتي. على عكس النماذج التقليدية ثنائية الاتجاه، تم تصميم بنيتنا خصيصًا لإنشاء إطار تلو الآخر في الوقت الفعلي مع تكييف إدخال المستخدم.

Oasis's ViT + DiT architecture

تتميز بنية ViT DiT الخاصة بـ Oasis بوجود جهاز تشفير تلقائي متغير قائم على المحولات واهتمام زماني مكاني متسارع

🎯الميزات الرئيسية

  • إنشاء إطار بإطار مشروط بإدخال المستخدم
  • جهاز التشفير التلقائي المتغير القائم على المحولات (ViT VAE)
  • آلية الاهتمام الزماني المكاني والمحوري المتسارع

💡الابتكارات التقنية

  • الضوضاء الديناميكية في وقت الاستدلال لزيادة الاستقرار
  • حبات الاستدلال الأمثل للأداء في الوقت الحقيقي
  • طبقات اهتمام مؤقتة إضافية لسياق الإطار

🧠 تكنولوجيا نموذج الذكاء الاصطناعي

تستخدم Oasis مجموعة من نماذج التدريب على الانتشار والمحولات، المستوحاة من نماذج اللغات الكبيرة المتقدمة (LLMs). يقوم النموذج بإنشاء فيديو على أساس إطار بإطار، مشروطًا بإجراءات المستخدم في كل لحظة.

تتميز البنية بوجود جهاز تشفير تلقائي متغير قائم على المحول (ViT VAE) لضغط حجم الصورة وتمكين الانتشار من التركيز على خصائص المستوى الأعلى، إلى جانب آلية الاهتمام الزماني المكاني المحورية والسببية المتسارعة.

🎯 ابتكار نموذج الانتشار

على عكس النماذج ثنائية الاتجاه، تقوم Oasis بإنشاء إطارات بشكل انحداري ذاتي، مع القدرة على تكييف كل إطار وفقًا لمدخلات اللعبة. يتيح ذلك للمستخدمين التفاعل مع العالم في الوقت الفعلي بدلاً من مجرد عرض مقاطع الفيديو بأثر رجعي.

يستخدم النموذج تقنيات فرض الانتشار ويتضمن طبقات اهتمام زمنية إضافية متداخلة بين طبقات الاهتمام المكاني لتوفير السياق من الإطارات السابقة.

⚙️ أداء

🚀 القدرات الحالية

  • يحقق وقت استدلال قدره 47 مللي ثانية لكل إطار باستخدام إطار عمل الاستدلال الخاص بشركة Decart
  • يعمل بدقة 360 بكسل بمعدل 20 إطارًا في الثانية على وحدات معالجة الرسومات NVIDIA H100
  • مُحسّن للعب في متصفح الويب في الوقت الفعلي بأقل قدر من الكمون

💫 التحسينات المستقبلية

  • ستعمل شريحة Sohu من Etched على تمكين اللعب بدقة 4K
  • يمكن أن يخدم 10 أضعاف عدد المستخدمين مقارنة بالأجهزة الحالية وبنفس السعر واستهلاك الطاقة
  • تهدف إلى جعل الألعاب عالية الجودة التي يتم إنشاؤها بواسطة الذكاء الاصطناعي أكثر سهولة وفعالية من حيث التكلفة

📊 سوهو يتيح 10x المزيد من المستخدمين

(تحليل الأداء باستخدام بنية Oasis تم رفعه إلى 100B معلمات)
20 FPS
معدل الإطار في الوقت الحقيقي
4K
رقاقة Sohu تدعم الدقة
100x
أسرع من النماذج الحالية
10x
يمكن أن تخدم المزيد من المستخدمين

🔮 التنمية المستقبلية

🎯 التحديات الحالية

  • تحسين ذاكرة النموذج لتحسين الاحتفاظ بالتفاصيل عبر الإطارات
  • تعزيز وضوح المخرجات وتقليل الضبابية في مواقف معينة
  • التعامل مع حالات الحافة والمدخلات خارج توزيع التدريب الخاص بالنموذج

🌟 الرؤية المستقبلية

ويعمل الفريق بنشاط على توسيع نطاق النموذج ومجموعات البيانات، إلى جانب تطوير تقنيات تحسين إضافية لتمكين التدريب الفعال على نطاق واسع.

إلى جانب الألعاب، تهدف Oasis إلى التوسع في إنشاء مقاطع فيديو تفاعلية متعددة الوسائط بالكامل، مما قد يحدث ثورة في كيفية تفاعلنا مع المحتوى الرقمي ومنصات الترفيه.

📚 التوثيق