डेकार्ट ओएसिस एआई माइनक्राफ्ट के बारे में

डेकार्ट एआई द्वारा विकसित पहला खेलने योग्य, रीयलटाइम, ओपन-वर्ल्ड एआई मॉडल जो फ्रेम-दर-फ्रेम आधार पर गेमप्ले उत्पन्न करता है।

🎮 परियोजना अवलोकन

Etched के सहयोग से Decart AI द्वारा विकसित Oasis AI Minecraft, AI गेमिंग तकनीक में एक अभूतपूर्व उपलब्धि का प्रतिनिधित्व करता है। यह एक इंटरैक्टिव वीडियो गेम है जो फ्रेम-दर-फ्रेम आधार पर एक ट्रांसफॉर्मर द्वारा एंड-टू-एंड उत्पन्न होता है।

पारंपरिक खेलों के विपरीत, ओएसिस उपयोगकर्ता कीबोर्ड और माउस इनपुट लेता है और वास्तविक समय गेमप्ले उत्पन्न करता है, आंतरिक रूप से भौतिकी, गेम नियमों और ग्राफिक्स का अनुकरण करता है। मॉडल ने उपयोगकर्ताओं को सीधे गेमप्ले देखकर घूमने, कूदने, आइटम उठाने, ब्लॉक तोड़ने और बहुत कुछ करने की अनुमति देना सीखा।

यह क्रांतिकारी परियोजना अत्याधुनिक एआई अनुसंधान को उन्नत हार्डवेयर अनुकूलन के साथ जोड़ती है, जो मूलभूत मॉडल की ओर पहला कदम है जो अधिक जटिल इंटरैक्टिव दुनिया का अनुकरण करता है, जो संभावित रूप से एआई-संचालित भविष्य में क्लासिक गेम इंजन की जगह लेता है।

तकनीकी वास्तुकला

🔄 एक नई इंटरैक्टिव वास्तुकला का निर्माण

हमने तेज़ ऑटोरेग्रेसिव इंटरैक्टिव वीडियो पीढ़ी के लिए सर्वोत्तम आर्किटेक्चर की पहचान करने के लिए सैकड़ों वास्तुशिल्प और डेटा प्रयोग चलाए। पारंपरिक द्विदिश मॉडल के विपरीत, हमारी वास्तुकला विशेष रूप से उपयोगकर्ता इनपुट कंडीशनिंग के साथ वास्तविक समय, फ्रेम-दर-फ्रेम पीढ़ी के लिए डिज़ाइन की गई है।

Oasis's ViT + DiT architecture

ओएसिस का ViT DiT आर्किटेक्चर जिसमें ट्रांसफॉर्मर-आधारित वैरिएबल ऑटोएनकोडर और त्वरित स्पेटियोटेम्पोरल ध्यान शामिल है

🎯प्रमुख विशेषताऐं

  • उपयोगकर्ता इनपुट पर फ़्रेम-दर-फ़्रेम पीढ़ी वातानुकूलित
  • ट्रांसफार्मर-आधारित वैरिएबल ऑटोएनकोडर (ViT VAE)
  • त्वरित अक्षीय, कारण स्थानिक-अस्थायी ध्यान तंत्र

💡तकनीकी नवाचार

  • बढ़ी हुई स्थिरता के लिए अनुमान के समय गतिशील शोर
  • वास्तविक समय के प्रदर्शन के लिए अनुकूलित अनुमान कर्नेल
  • फ़्रेम संदर्भ के लिए अतिरिक्त अस्थायी ध्यान परतें

🧠 एआई मॉडल प्रौद्योगिकी

ओएसिस उन्नत बड़े-भाषा-मॉडल (एलएलएम) से प्रेरित होकर, प्रसार प्रशिक्षण और ट्रांसफार्मर मॉडल के संयोजन का उपयोग करता है। मॉडल फ़्रेम-दर-फ़्रेम आधार पर वीडियो तैयार करता है, जो प्रत्येक पल में उपयोगकर्ता की गतिविधियों से अनुकूलित होता है।

आर्किटेक्चर में छवि आकार को संपीड़ित करने और त्वरित अक्षीय, कारण स्पोटियोटेम्पोरल ध्यान तंत्र के साथ-साथ उच्च-स्तरीय विशेषताओं पर ध्यान केंद्रित करने के लिए प्रसार को सक्षम करने के लिए एक ट्रांसफार्मर-आधारित वैरिएबल ऑटोएनकोडर (वीआईटी वीएई) की सुविधा है।

🎯 डिफ्यूजन मॉडल इनोवेशन

द्विदिश मॉडल के विपरीत, ओएसिस गेम इनपुट पर प्रत्येक फ्रेम को कंडीशन करने की क्षमता के साथ, ऑटोरेग्रेसिव रूप से फ्रेम उत्पन्न करता है। यह उपयोगकर्ताओं को केवल पूर्वव्यापी रूप से वीडियो प्रस्तुत करने के बजाय वास्तविक समय में दुनिया के साथ बातचीत करने में सक्षम बनाता है।

मॉडल प्रसार-बल तकनीकों को नियोजित करता है और इसमें पिछले फ्रेम से संदर्भ प्रदान करने के लिए स्थानिक ध्यान परतों के बीच अतिरिक्त अस्थायी ध्यान परतें शामिल होती हैं।

⚙️ प्रदर्शन

🚀 वर्तमान क्षमताएँ

  • डेकार्ट के मालिकाना अनुमान ढांचे का उपयोग करके प्रति फ्रेम 47ms अनुमान समय प्राप्त करता है
  • NVIDIA H100 GPU पर 20fps पर 360p रिज़ॉल्यूशन पर चलता है
  • न्यूनतम विलंबता के साथ वास्तविक समय वेब ब्राउज़र गेमप्ले के लिए अनुकूलित

💫 भविष्य के अनुकूलन

  • Etched की Sohu चिप 4K रिज़ॉल्यूशन गेमप्ले को सक्षम करेगी
  • समान कीमत और बिजली की खपत पर वर्तमान हार्डवेयर की तुलना में 10 गुना अधिक उपयोगकर्ताओं को सेवा प्रदान कर सकता है
  • इसका उद्देश्य उच्च गुणवत्ता वाले एआई-जनरेटेड गेमिंग को अधिक सुलभ और लागत प्रभावी बनाना है

📊 सोहू 10 गुना अधिक उपयोगकर्ताओं को सक्षम बनाता है

(ओएसिस आर्किटेक्चर का उपयोग करके प्रदर्शन विश्लेषण 100बी पैरामीटर्स तक बढ़ाया गया)
20 FPS
वास्तविक समय फ़्रेम दर
4K
सोहू चिप संकल्प का समर्थन करता है
100x
वर्तमान मॉडलों की तुलना में तेज़
10x
अधिक उपयोगकर्ताओं को सेवा प्रदान कर सकता है

🔮 भविष्य का विकास

🎯 वर्तमान चुनौतियाँ

  • फ़्रेम में बेहतर विवरण प्रतिधारण के लिए मॉडल मेमोरी में सुधार करना
  • आउटपुट स्पष्टता बढ़ाना और कुछ स्थितियों में धुंधलापन कम करना
  • मॉडल के प्रशिक्षण वितरण के बाहर किनारे के मामलों और इनपुट को संभालना

🌟 भविष्य की दृष्टि

टीम कुशल बड़े पैमाने पर प्रशिक्षण को सक्षम करने के लिए अतिरिक्त अनुकूलन तकनीक विकसित करने के साथ-साथ मॉडल और डेटासेट को स्केल करने पर सक्रिय रूप से काम कर रही है।

गेमिंग से परे, ओएसिस का लक्ष्य पूर्ण इंटरैक्टिव मल्टीमॉडल वीडियो पीढ़ी में विस्तार करना है, जिससे संभावित रूप से हम डिजिटल सामग्री और मनोरंजन प्लेटफार्मों के साथ कैसे बातचीत करते हैं, इसमें क्रांतिकारी बदलाव आएगा।

📚 प्रलेखन