डेकार्ट एआई द्वारा विकसित पहला खेलने योग्य, रीयलटाइम, ओपन-वर्ल्ड एआई मॉडल जो फ्रेम-दर-फ्रेम आधार पर गेमप्ले उत्पन्न करता है।
Etched के सहयोग से Decart AI द्वारा विकसित Oasis AI Minecraft, AI गेमिंग तकनीक में एक अभूतपूर्व उपलब्धि का प्रतिनिधित्व करता है। यह एक इंटरैक्टिव वीडियो गेम है जो फ्रेम-दर-फ्रेम आधार पर एक ट्रांसफॉर्मर द्वारा एंड-टू-एंड उत्पन्न होता है।
पारंपरिक खेलों के विपरीत, ओएसिस उपयोगकर्ता कीबोर्ड और माउस इनपुट लेता है और वास्तविक समय गेमप्ले उत्पन्न करता है, आंतरिक रूप से भौतिकी, गेम नियमों और ग्राफिक्स का अनुकरण करता है। मॉडल ने उपयोगकर्ताओं को सीधे गेमप्ले देखकर घूमने, कूदने, आइटम उठाने, ब्लॉक तोड़ने और बहुत कुछ करने की अनुमति देना सीखा।
यह क्रांतिकारी परियोजना अत्याधुनिक एआई अनुसंधान को उन्नत हार्डवेयर अनुकूलन के साथ जोड़ती है, जो मूलभूत मॉडल की ओर पहला कदम है जो अधिक जटिल इंटरैक्टिव दुनिया का अनुकरण करता है, जो संभावित रूप से एआई-संचालित भविष्य में क्लासिक गेम इंजन की जगह लेता है।
हमने तेज़ ऑटोरेग्रेसिव इंटरैक्टिव वीडियो पीढ़ी के लिए सर्वोत्तम आर्किटेक्चर की पहचान करने के लिए सैकड़ों वास्तुशिल्प और डेटा प्रयोग चलाए। पारंपरिक द्विदिश मॉडल के विपरीत, हमारी वास्तुकला विशेष रूप से उपयोगकर्ता इनपुट कंडीशनिंग के साथ वास्तविक समय, फ्रेम-दर-फ्रेम पीढ़ी के लिए डिज़ाइन की गई है।
ओएसिस का ViT DiT आर्किटेक्चर जिसमें ट्रांसफॉर्मर-आधारित वैरिएबल ऑटोएनकोडर और त्वरित स्पेटियोटेम्पोरल ध्यान शामिल है
ओएसिस उन्नत बड़े-भाषा-मॉडल (एलएलएम) से प्रेरित होकर, प्रसार प्रशिक्षण और ट्रांसफार्मर मॉडल के संयोजन का उपयोग करता है। मॉडल फ़्रेम-दर-फ़्रेम आधार पर वीडियो तैयार करता है, जो प्रत्येक पल में उपयोगकर्ता की गतिविधियों से अनुकूलित होता है।
आर्किटेक्चर में छवि आकार को संपीड़ित करने और त्वरित अक्षीय, कारण स्पोटियोटेम्पोरल ध्यान तंत्र के साथ-साथ उच्च-स्तरीय विशेषताओं पर ध्यान केंद्रित करने के लिए प्रसार को सक्षम करने के लिए एक ट्रांसफार्मर-आधारित वैरिएबल ऑटोएनकोडर (वीआईटी वीएई) की सुविधा है।
द्विदिश मॉडल के विपरीत, ओएसिस गेम इनपुट पर प्रत्येक फ्रेम को कंडीशन करने की क्षमता के साथ, ऑटोरेग्रेसिव रूप से फ्रेम उत्पन्न करता है। यह उपयोगकर्ताओं को केवल पूर्वव्यापी रूप से वीडियो प्रस्तुत करने के बजाय वास्तविक समय में दुनिया के साथ बातचीत करने में सक्षम बनाता है।
मॉडल प्रसार-बल तकनीकों को नियोजित करता है और इसमें पिछले फ्रेम से संदर्भ प्रदान करने के लिए स्थानिक ध्यान परतों के बीच अतिरिक्त अस्थायी ध्यान परतें शामिल होती हैं।
टीम कुशल बड़े पैमाने पर प्रशिक्षण को सक्षम करने के लिए अतिरिक्त अनुकूलन तकनीक विकसित करने के साथ-साथ मॉडल और डेटासेट को स्केल करने पर सक्रिय रूप से काम कर रही है।
गेमिंग से परे, ओएसिस का लक्ष्य पूर्ण इंटरैक्टिव मल्टीमॉडल वीडियो पीढ़ी में विस्तार करना है, जिससे संभावित रूप से हम डिजिटल सामग्री और मनोरंजन प्लेटफार्मों के साथ कैसे बातचीत करते हैं, इसमें क्रांतिकारी बदलाव आएगा।