
Модель DVGT реконструирует плотные 3D-карты для автономного вождения
Модель Driving Visual Geometry Transformer (DVGT) представляет собой прорыв в восприятии для автономных транспортных средств. Эта модель создает плотные 3D-карты окружающей среды непосредственно из последовательностей изображений камеры, обходя необходимость точной калибровки камеры или использования дорогостоящих внешних датчиков, таких как LiDAR. Ее подход, основанный исключительно на зрении, упрощает цепочку восприятия 🚗.
Механизмы внимания для вывода геометрии
Архитектура трансформера в DVGT обрабатывает визуальную информацию с помощью трех специализированных механизмов внимания, работающих совместно. Эта стратегия позволяет адаптироваться к различным конфигурациям камер и динамическим сценариям, производя точную метрическую геометрию.
Три столпа внимания DVGT:- Внутрикадровое внимание: Анализирует и захватывает детали и отношения внутри одного отдельного изображения.
- Межкадровое внимание (пространственное): Коррелирует эквивалентные точки между изображениями, снятыми с слегка разных углов, что фундаментально для триангуляции и расчета глубины.
- Межкадровое внимание (временное): Отслеживает движение точек на протяжении последовательности видео, что укрепляет реконструкцию и придает временную coherentность 3D-карте.
Комбинация пространственного и временного внимания ключева для того, чтобы модель понимала структуру 3D мира в реальном времени без зависимости от специализированного оборудования.
Результаты, превосходящие установленные бенчмарки
В экспериментальных оценках DVGT превосходит предыдущие модели реконструкции 3D на множестве публичных наборов данных сцен вождения. Ее устойчивость в разнообразных условиях демонстрирует потенциал систем восприятия, использующих только зрение.
Преимущества, продемонстрированные моделью:- Генерирует плотные и coherentные 3D-карты без точной внешней калибровки камеры.
- Гибко обрабатывает различные типы камер и конфигурации.
- Производит метрическую геометрию, необходимую для безопасной навигации автономного транспортного средства.
Шаг к практическому автономному восприятию
Способность DVGT реконструировать окружения в 3D точным и эффективным образом приближает технологию к более доступным и надежным системам автономного вождения. Этот подход приближает будущее, в котором транспортное средство воспринимает свое окружение с глубиной и пониманием, которые порой могут соперничать с человеческим восприятием в сложных задачах 🧠.