
نموذج DVGT يعيد بناء خرائط ثلاثية الأبعاد كثيفة للقيادة الذاتية
يُمثل محول الهندسة البصرية للقيادة (DVGT) تقدماً في الإدراك للمركبات الذاتية القيادة. يقوم هذا النموذج بإنشاء خرائط ثلاثية الأبعاد كثيفة للبيئة المحيطة مباشرة من تسلسلات صور الكاميرا، مع تجاوز الحاجة إلى معايرة الكاميرا بدقة أو استخدام مستشعرات خارجية مكلفة مثل LiDAR. يبسط نهجه المعتمد على الرؤية النقية سلسلة الإدراك 🚗.
آليات الاهتمام لاستنتاج الهندسة
تعالج بنية المحول في DVGT المعلومات البصرية من خلال ثلاث آليات اهتمام متخصصة تعمل معاً. تسمح هذه الاستراتيجية له بالتكيف مع تكوينات كاميرا مختلفة وسيناريوهات ديناميكية، مما ينتج هندسة ميترية دقيقة.
الثلاث ركائز للاهتمام في DVGT:- الاهتمام داخل النظرة: يحلل ويلتقط التفاصيل والعلاقات داخل صورة فردية واحدة.
- الاهتمام بين النظرة (مكاني): يرتبط النقاط المكافئة بين الصور الملتقطة من زوايا مختلفة قليلاً، وهو أمر أساسي لعملية الثنائي والحساب العمق.
- الاهتمام بين الإطارات (زمني): يتتبع حركة النقاط عبر تسلسل فيديو، مما يعزز إعادة البناء ويضيف تماسكاً زمنياً إلى الخريطة ثلاثية الأبعاد.
الجمع بين الاهتمام المكاني والزمني هو المفتاح لفهم النموذج لهيكل العالم ثلاثي الأبعاد في الوقت الفعلي دون الاعتماد على أجهزة متخصصة.
نتائج تتجاوز المعايير المعتمدة
في التقييمات التجريبية، يتفوق DVGT على نماذج إعادة البناء ثلاثية الأبعاد السابقة في مجموعات بيانات عامة متعددة لمشاهد القيادة. تُظهر متانته في ظروف متنوعة إمكانيات أنظمة الإدراك التي تعتمد فقط على الرؤية.
المزايا المثبتة للنموذج:- يولد خرائط ثلاثية الأبعاد كثيفة ومتسقة دون معايرة خارجية دقيقة للكاميرا.
- يتعامل مع أنواع كاميرات وتكوينات مختلفة بمرونة.
- ينتج هندسة ميترية، وهي أساسية لقيادة المركبة الذاتية بأمان.
خطوة نحو الإدراك الذاتي العملي
قدرة DVGT على إعادة بناء البيئات ثلاثية الأبعاد بدقة وكفاءة تقرب التكنولوجيا من أنظمة قيادة ذاتية أكثر سهولة وموثوقية. يقرب هذا النهج من مستقبل حيث يدرك المركبة بيئتها بعمق وفهم قد ينافس في بعض الأحيان الإدراك البشري في المهام المعقدة 🧠.