En el descubrimiento científico basado en datos, un reto persistente es clasificar fenómenos conocidos e identificar anomalías novedosas al mismo tiempo. Los algoritmos de agrupación semi-supervisados actuales no siempre abordan esta dualidad de forma completa, ya que a menudo asumen que las señales de supervisión son globalmente representativas. Esto lleva a imponer restricciones rígidas que suprimen patrones inesperados o a requerir un número predefinido de grupos, lo que limita su capacidad para detectar novedad genuina. Para superar esta brecha, presentamos CLiMB (CLustering in Multiphase Boundaries), un marco de trabajo que desacopla explotar el conocimiento previo de explorar estructuras desconocidas.


Un enfoque secuencial en dos fases

El marco CLiMB opera con un enfoque secuencial en dos fases. Primero, ancla los grupos conocidos usando una partición con restricciones, aprovechando al máximo el conocimiento previo disponible. En una segunda fase, aplica agrupación basada en densidad a los datos residuales, lo que permite revelar topologías arbitrarias y desconocidas sin forzar una estructura predefinida. Esta separación explícita entre explotar y explorar es fundamental para su funcionamiento.

Validación con datos astronómicos reales

Demostramos este marco con datos reales de estrellas RR Lyrae de la publicación Gaia Data Release 3. CLiMB logra un Índice Rand Ajustado de 0.829 con una cobertura del 90% en recuperar subestructuras conocidas de la Vía Láctea, superando de forma clara a métodos heurísticos y basados solo en restricciones, que se estancan por debajo de 0.20. Además, un análisis de sensibilidad confirma su eficiencia con los datos, mostrando una mejora monótona a medida que aumenta el conocimiento inicial. Finalmente, el marco aísla con éxito tres características dinámicas (Shiva, Shakti y el Disco Galáctico) en el campo de datos sin etiquetar, lo que valida su potencial para el descubrimiento científico.

Así que, si tu algoritmo de agrupación fuerza a los datos a encajar en cajas conocidas, quizás esté suprimiendo la próxima gran revelación que espera en los márgenes.