通过视觉知识蒸馏的激光雷达模型适应

通过视觉知识蒸馏适应LiDAR模型

异构LiDAR传感器的互操作性是开发鲁棒自主系统中最复杂的障碍之一。当用特定传感器数据训练的模型面对分辨率、扫描模式或噪声水平的变化时，其语义分割能力会急剧下降🎯。

Vision Foundation Models通过无监督蒸馏过程作为范式解决方案，将视觉表示转化为可转移到LiDAR域的知识。这种方法利用图像模型的内在稳定性来生成丰富的教学信号，指导LiDAR模型的学习，而无需在新传感器域中进行手动标注🔄。

交叉蒸馏的关键机制：

多模态蒸馏在视觉域和LiDAR域之间创建认知桥梁，复制人类在不同感官上下文之间转移知识的能力

LiDAR backbone的选择对转移过程的有效性至关重要。某些神经网络拓扑显示出更大的能力来吸收和保留来自视觉基础模型的稳定特征。所提出方法允许通过蒸馏进行单一预训练 backbone，从而使其可在多个域变化场景中重复使用，而无需重复完整过程🏗️。

泛化保存策略：

这种方法在四个特别具有挑战性的参考场景中，相对于传统方法显示出一致优越性，包括不同密度和扫描配置的LiDAR之间过渡。在实际实现中，如自主车辆从64线旋转系统迁移到32线配置，预训练backbone提取对密度降低具有弹性的特征，而MLP头快速学习将这些表示映射到特定语义类🚗。

图像-LiDAR蒸馏、可重用backbone和轻量级适应头的协同组合构成了一个高效且可扩展的范式，用于解决机器人感知中的泛化挑战。这一进步代表了一个根本性的概念转变：LiDAR系统终于学会了，换工具并不意味着从零重新学习，而是智能适应新操作条件💡。