Climb 将已知与新知分离，以发掘科学数据中的洞见

Climb 将已知与未知分离，以在科学数据中发现新知

在数据科学中，一个持续的挑战是分类熟悉模式并检测意外异常同时进行。🧩 当前的半监督聚类方法通常无法实现这一双重目标，因为它们假设引导信号代表了全部现实。这会导致施加严格限制，可能隐藏令人惊讶的发现，或者需要预先定义群组数量，从而限制发现真正新颖性的可能性。

为了弥合这一差距，提出了CLiMB（CLustering in Multiphase Boundaries），一个明确分离利用先验知识与探索未知的框架。其架构避免了其他方法特有的刚性假设。

CLiMB 的两阶段操作：

如果你的聚类算法强迫数据适应已知盒子，或许它正在抑制下一个重大发现。

该框架的有效性通过Gaia Data Release 3出版物中获取的真实RR Lyrae恒星数据得到证明。CLiMB 在恢复银河系已记录子结构时，实现了 0.829 的调整兰德指数和 90% 的覆盖率。🪐

验证的关键结果：

CLiMB 为分类与发现的双重问题提供了实用解决方案。通过解耦利用和探索阶段，它避免抑制意外模式，并允许数据边缘真正的新颖性浮现。其使用真实天文信息的验证突显了其在复杂科学场景中的实用性，其中并非一切都预定义。🔭