1 Archivos adjunto(s)
LitePT combina convoluciones y atención para procesar nubes de puntos 3D
Las arquitecturas modernas para procesar nubes de puntos 3D suelen mezclar capas convolucionales y bloques de atención, pero la forma óptima de integrarlas no está clara. Un análisis reciente revela un comportamiento intuitivo: las convoluciones extraen geometría de bajo nivel en las capas iniciales de alta resolución, donde la atención resulta costosa y no aporta ventajas. En cambio, los mecanismos de atención capturan semántica de alto nivel y contexto de forma más eficiente en las capas profundas de baja resolución.
El diseño híbrido da forma a LitePT
Guiado por este principio, se propone LitePT, un nuevo modelo que emplea convoluciones en las primeras etapas y cambia a atención en las capas más profundas. Para conservar la información espacial al reducir las capas convolucionales, se introduce PointROPE, una codificación posicional 3D que no requiere entrenamiento. Este enfoque permite que LitePT funcione con 3.6 veces menos parámetros, sea 2 veces más rápido y use 2 veces menos memoria que Point Transformer V3, el estado del arte actual.
Resultados que igualan o superan al referente
A pesar de su eficiencia, LitePT iguala o incluso supera el rendimiento de Point Transformer V3 en diversas tareas y conjuntos de datos. Esto demuestra que una composición estratégica de operadores, basada en comprender su papel en la jerarquía de características, puede conducir a redes más ligeras y rápidas sin comprometer la precisión. El código y los modelos están disponibles públicamente.
Parece que, a veces, la solución más elegante no es forzar a todos los bloques a trabajar juntos desde el principio, sino dejar que cada uno haga lo que mejor sabe hacer en el momento adecuado, como en un buen equipo.