
Av-ag: نظام يستخدم الصوت لتحديد كيفية التلاعب بالأجسام
تستكشف البحوث في رؤية الحاسوب طرقًا جديدة لفهم المشاهد. يقترح نظام مبتكر يُدعى AV-AG نهجًا مختلفًا: استخدام صوت الفعل للعثور على وتحديد بدقة الأجزاء من جسم يمكن التفاعل معها في صورة. لا يعتمد هذا الطريقة على أن يكون الجسم مرئيًا بالكامل، مما يحل مشكلات الغموض أو الإخفاء البصري. 🎯
قوة التلميحات الصوتية
على عكس الأنظمة التي تستخدم النص أو الفيديو، يوفر الصوت إشارات دلالية مباشرة وفورية. لتدريب واختبار هذه القدرة، أنشأ الباحثون أول مجموعة بيانات AV-AG. تشمل تسجيلات أصوات الأفعال، وصورًا مقابلة، وتعليقات على مستوى البكسل التي تحدد المناطق القابلة للتلاعب. مجموعة فرعية تحتوي على أجسام لم تُرَ أثناء التدريب تسمح بتقييم كيفية تعميم النظام على حالات جديدة، وهو نقطة حاسمة لفائدته العملية.
المكونات الرئيسية لمجموعة البيانات:- أصوات أفعال محددة (مثل: الرشف، الإمساك، الضرب).
- صور الأجسام المرتبطة بتلك الأفعال.
- تعليقات بكسلية تحدد مناطق التفاعل.
- مجموعة من الأجسام غير المرئية لاختبار التعميم.
يمكن للصوت توجيه فهم الرؤية البصرية لكيفية تفاعلنا مع الأجسام بفعالية.
هندسة نموذج AVAGFormer
نواة النظام هي النموذج AVAGFormer، الذي يدمج المعلومات السمعية والبصرية. يستخدم خلاطًا عابرًا للوضعيات يدمج التلميحات الصوتية مع بيانات الصورة بطريقة دلالية متماسكة. بعد ذلك، يولد فكّال ثنائي الرأس أقنعة التقسيم النهائية. أظهرت هذه الهندسة تفوقها على الطرق السابقة في مهمة تحديد مناطق التفاعل الموجهة بالصوت.
تدفق معالجة AVAGFormer:- إدخال متزامن لصورة وإشارة صوتية.
- دمج عابر للوضعيات مشروط دلاليًا.
- فك تشفير في فرعين للتنبؤ بالقناع الدقيق.
- إخراج تقسيم بكسلي للمنطقة القابلة للتلاعب.
تطبيقات مباشرة في الرسومات ثلاثية الأبعاد والمحاكاة
بالنسبة لمجتمع foro3d.com، تفتح هذه التكنولوجيا آفاقًا ملموسة. يمكنها المساعدة في توليد أقنعة الاتصال أو المناطق القابلة للتلاعب في نماذج ثلاثية الأبعاد مباشرة من تلميحات صوتية، مما يسرّع الإعداد. في المحاكاة الفيزيائية، يمكنها تحديد نقاط الإمساك الواقعية تلقائيًا. بالإضافة إلى ذلك، تثري أنظمة الرسوم المتحركة والتجهيز ببيانات حول كيفية استخدام الأجسام. كما يمكنها تسهيل أدوات التلميع التي تكتشف الأسطح الوظيفية، وإلهام إضافات تجمع بين الصوت والرؤية لتحقيق تماسك أكبر بين الأفعال والأصوات والحركات في المشاهد ثلاثية الأبعاد. وهكذا، في المرة القادمة التي يمسك فيها شخصية بكوب بشكل صحيح، قد يكون الفضل لصوت رشفة بسيط. 🫖