قدمت شركة Nvidia نموذجًا للذكاء الاصطناعي يدمج قدرات الرؤية والصوت واللغة في بنية واحدة. على عكس الأنظمة متعددة الوسائط التقليدية التي تعالج كل قناة على حدة، يقوم Nemotron 3 Nano Omni بتوحيد المعلومات لمحاكاة كيفية إدراك البشر للمحفزات. وهو مصمم للروبوتات المادية والتقارب بين العالمين الحقيقي والرقمي، مما يتيح تفاعلات أكثر طبيعية وسرعة.
توحيد القنوات الحسية لروبوتات أكثر مرونة 🤖
يعمل النموذج ببنية تعالج في الوقت الفعلي البيانات المرئية والأصوات والنصوص بشكل متزامن. وهذا يلغي الاختناقات النموذجية للأنظمة التي تجمع بين وحدات منفصلة. من خلال مزامنة المدخلات من أجهزة استشعار متعددة، يستجيب النموذج بزمن وصول أقل. بالنسبة للتطبيقات الروبوتية، يعني هذا أن ذراعًا ميكانيكيًا يمكنه رؤية شيء ما، وسماع أمر شفهي، وضبط حركته دون توقف وسيط. تدعي Nvidia أن هذا التكامل يقلل من استهلاك الطاقة ويحسن الدقة في البيئات الديناميكية.
الروبوت الذي يسمعك ويراك ومع ذلك لا يفهم سخرية صوتك 😅
الآن، لن تصطدم مكنستك الكهربائية الروبوتية بالأثاث فحسب، بل ستتمكن أيضًا من سماعك وأنت تصرخ توقف! وستستمر في التنظيف لأنها خلطت بين نبرة صوتك وأغنية هادئة. صحيح أنها على الأقل ستعالج كل شيء في نفس الوقت، مثل نادل يدون الطلب، وينظر إليك بازدراء، ويقدم لك الحساء البارد في حركة واحدة. يعد التقارب الرقمي بروبوتات تفهمنا، لكنها على الأرجح ستستمر في تجاهل تلميحاتنا غير المباشرة.