गूगल डीपमाइंड ने जेमिनी ओमनी प्रस्तुत किया, जो जनरेटिव एआई मॉडल का एक परिवार है जो सामग्री बनाने के लिए टेक्स्ट, फोटो, ऑडियो और वीडियो को प्रोसेस करता है। इसका पहला मॉडल, जेमिनी ओमनी फ्लैश, मल्टीमॉडल डेटा को भौतिकी के नियमों के उन्नत ज्ञान के साथ जोड़कर वीडियो क्लिप बनाता है। अधिकारियों का दावा है कि इस तकनीक में पिछले विकासों की तुलना में दुनिया की बेहतर समझ है, जो अधिक एकीकृत कृत्रिम बुद्धिमत्ता की ओर एक कदम है।
मॉडल में डेटा और भौतिकी का संलयन कैसे काम करता है 🧠
जेमिनी ओमनी फ्लैश एक एकीकृत आर्किटेक्चर का उपयोग करता है जो एक साथ कई प्रकार के इनपुट को प्रोसेस करता है। मॉडल न केवल वीडियो में वस्तुओं को पहचानता है, बल्कि गुरुत्वाकर्षण, टकराव और स्थानिक निरंतरता के सिद्धांतों के आधार पर उनके व्यवहार की भविष्यवाणी करता है। यह सुसंगत अनुक्रम उत्पन्न करने की अनुमति देता है जहां एक गिलास गिरने पर टूट जाता है या एक गेंद अपने द्रव्यमान के अनुसार उछलती है। डीपमाइंड ने सिस्टम को वास्तविक दुनिया की अंतःक्रियाओं के लेबल वाले डेटा के साथ प्रशिक्षित किया, जिससे अन्य वीडियो जनरेटर में आम भ्रम से बचा जा सके।
अब एआई जानता है कि अंडा छत पर नहीं चिपकता 🥚
आखिरकार एक कृत्रिम बुद्धिमत्ता जो यह नहीं सोचती कि वस्तुएं बिना कारण तैरती रहती हैं। जेमिनी ओमनी फ्लैश जानता है कि यदि आप एक अंडा फेंकते हैं, तो वह टूट जाता है, और एक बिल्ली दीवार से नहीं गुजर सकती। गूगल डीपमाइंड के डेवलपर्स को गर्व होना चाहिए: उन्होंने एक मशीन को यह समझने में सफलता पाई है कि दूध गिरता है और कंफ़ेद्दी में नहीं बदलता। इस बीच, अन्य मॉडल ऐसे वीडियो उत्पन्न करना जारी रखते हैं जहां कारें उड़ती हैं और लोग पानी पर चलते हैं।