LitePT сочетает свертки и внимание для обработки трехмерных облаков точек

Diagrama de la arquitectura híbrida LitePT mostrando capas convolucionales iniciales y bloques de atención en las capas profundas, con el módulo PointROPE integrado para codificación posicional.

LitePT сочетает свертки и внимание для обработки 3D-облаков точек

В области глубокого обучения для 3D смешивание сверточных слоев и блоков внимания является распространенной практикой, но идеальный способ их интеграции не был очевиден. Недавнее исследование выявило четкий паттерн: каждый оператор имеет оптимальный момент для действия в нейронной сети. 🧠

Роль каждого оператора в иерархии признаков

Исследование показывает, что свертки лучше всего работают в начальных слоях высокой разрешающей способности. Здесь они эффективно извлекают базовые геометрические детали, в то время как механизмы внимания были бы вычислительно затратными без значительных преимуществ. Напротив, в глубоких слоях, где данные имеют меньшую разрешающую способность, механизмы внимания превосходят для захвата семантического контекста и дальнодействующих связей.

Ключевые принципы эффективного дизайна:

Свертки управляют низкоуровневой геометрией на ранних этапах.
Внимание обрабатывает высокоуровневую семантику на поздних этапах.
Принуждение обоих работать вместе с самого начала не является оптимальной стратегией.

Самое элегантное решение — позволить каждому блоку делать то, что он умеет лучше всего, в подходящий момент, как в хорошей команде.

Рождение LitePT: практическая гибридная архитектура

Руководствуясь этими выводами, представлена LitePT, новаторская модель, реализующая этот принцип. Она использует сверточные слои на первых этапах и постепенно переходит к блокам внимания в более глубоких слоях. Для сохранения crucial пространственной информации при уменьшении сверточных слоев вводится PointROPE, инновационная 3D-кодировка позиций, которая не требует обучения. 🚀

Преимущества производительности LitePT:

Работает с в 3,6 раза меньшим количеством параметров, чем модель-референс.
Примерно в 2 раза быстрее при выполнении.
Потребляет около в 2 раза меньше памяти.
Модель сравнения — Point Transformer V3, текущее состояние искусства.

Результаты, подтверждающие подход

Несмотря на высокую эффективность, LitePT не жертвует точностью. В множестве задач и публичных наборов данных ее производительность равна или даже превосходит Point Transformer V3. Это доказывает, что понимание роли каждого оператора в иерархии признаков позволяет создавать более легкие и быстрые сети. Код и модели доступны сообществу, способствуя их развитию и применению. ✅