नेमोट्रॉन ३ नैनो ओम्नी ने एक चिप में दृष्टि, ऑडियो और भाषा को एकीकृत किया

Nvidia ने एक कृत्रिम बुद्धिमत्ता मॉडल प्रस्तुत किया है जो दृष्टि, ऑडियो और भाषा की क्षमताओं को एक ही आर्किटेक्चर में एकीकृत करता है। पारंपरिक मल्टीमॉडल सिस्टम के विपरीत जो प्रत्येक चैनल को अलग-अलग प्रोसेस करते हैं, Nemotron 3 Nano Omni मनुष्यों द्वारा उत्तेजनाओं को समझने के तरीके की नकल करने के लिए जानकारी को एकीकृत करता है। यह भौतिक रोबोटिक्स और वास्तविक और डिजिटल दुनिया के बीच अभिसरण के लिए डिज़ाइन किया गया है, जो अधिक प्राकृतिक और तेज़ इंटरैक्शन को सक्षम बनाता है।

एक चांदी की चिप नीली रोशनी की किरणें उत्सर्जित करती है, जो एक डिजिटल पृष्ठभूमि पर एक आंख, एक कान और एक मुंह को जोड़ती है।

अधिक फुर्तीले रोबोट के लिए संवेदी चैनलों का एकीकरण 🤖

मॉडल एक ऐसे आर्किटेक्चर के साथ काम करता है जो वास्तविक समय में दृश्य डेटा, ध्वनियों और टेक्स्ट को एक साथ प्रोसेस करता है। यह अलग-अलग मॉड्यूल को संयोजित करने वाले सिस्टम के विशिष्ट अड़चनों को समाप्त करता है। कई सेंसरों से इनपुट को सिंक्रोनाइज़ करके, मॉडल कम विलंबता के साथ प्रतिक्रिया करता है। रोबोटिक अनुप्रयोगों के लिए, इसका मतलब है कि एक यांत्रिक भुजा किसी वस्तु को देख सकती है, एक मौखिक आदेश सुन सकती है, और बिना किसी मध्यवर्ती रुकावट के अपनी गति को समायोजित कर सकती है। Nvidia का दावा है कि यह एकीकरण ऊर्जा की खपत को कम करता है और गतिशील वातावरण में सटीकता में सुधार करता है।

रोबोट जो आपको सुनता है, देखता है और फिर भी आपके व्यंग्य को नहीं समझता 😅

अब आपका रोबोट वैक्यूम क्लीनर न केवल फर्नीचर से टकराएगा, बल्कि वह आपको रुको! चिल्लाते हुए भी सुन पाएगा और फिर भी सफाई करता रहेगा क्योंकि उसने आपके स्वर को लोरी समझ लिया। हाँ, कम से कम यह एक ही समय में सब कुछ प्रोसेस करेगा, एक वेटर की तरह जो ऑर्डर लेता है, आपको तिरस्कार से देखता है और एक ही गति में ठंडा सूप परोसता है। डिजिटल अभिसरण ऐसे रोबोट का वादा करता है जो हमें समझते हैं, लेकिन संभवतः वे हमारे संकेतों को अनदेखा करते रहेंगे।