قدمت شركة Nvidia نموذجًا للذكاء الاصطناعي يدمج قدرات الرؤية والصوت واللغة في بنية واحدة. على عكس الأنظمة متعددة الوسائط التقليدية التي تعالج كل قناة على حدة، Nemotron 3 Nano Omni يوحد المعلومات لمحاكاة كيفية إدراك البشر للمحفزات. وهو مصمم للروبوتات المادية والتقارب بين العالمين الحقيقي والرقمي، مما يتيح تفاعلات أكثر طبيعية وسرعة.
توحيد القنوات الحسية لروبوتات أكثر مرونة 🤖
يعمل النموذج ببنية تعالج في الوقت الفعلي البيانات البصرية والصوتية والنصية بشكل متزامن. وهذا يزيل الاختناقات النموذجية للأنظمة التي تجمع وحدات منفصلة. من خلال مزامنة مدخلات أجهزة استشعار متعددة، يستجيب النموذج بزمن انتقال أقل. بالنسبة للتطبيقات الروبوتية، يعني هذا أن ذراعًا ميكانيكيًا يمكنه رؤية جسم ما، وسماع أمر شفهي، وضبط حركته دون توقف وسيط. تؤكد Nvidia أن هذا التكامل يقلل من استهلاك الطاقة ويحسن الدقة في البيئات الديناميكية.
الروبوت الذي يسمعك ويراك، ومع ذلك لا يفهم سخرية صوتك 😅
الآن، مكنستك الكهربائية الروبوت لن تصطدم بالأثاث فحسب، بل ستتمكن أيضًا من سماعك وأنت تصرخ توقف! وستستمر في الكنس لأنها أخطأت في تفسير نبرة صوتك على أنها تهويدة. صحيح أنها على الأقل ستعالج كل شيء في نفس الوقت، مثل نادل يدون طلبك، وينظر إليك بازدراء، ويقدم لك الحساء البارد في حركة واحدة. يعد التقارب الرقمي بروبوتات تفهمنا، لكنها على الأرجح ستظل تتجاهل تلميحاتنا.