CompreSSM comprime modelos SSM durante el entrenamiento para reducir costes

Un equipo del MIT presenta CompreSSM, un método que cambia el paradigma de compresión de modelos de IA. En lugar de reducir un modelo ya entrenado, actúa durante la fase de entrenamiento. La técnica identifica componentes prescindibles tras solo un 10% del proceso, permitiendo que el 90% restante se ejecute con la eficiencia de un modelo mucho más pequeño. Esto aborda directamente el problema de los altos costes computacionales.

Una técnica que comprime un modelo de IA durante su entrenamiento, reduciendo drásticamente su coste computacional.

Valores singulares de Hankel para una poda quirúrgica temprana 🎯

El algoritmo se centra en modelos de espacio de estados (SSMs). Utiliza valores singulares de Hankel, una herramienta de la teoría de control, para medir la contribución de cada componente interno del modelo tras las primeras épocas de entrenamiento. Al identificar y eliminar quirúrgicamente las partes menos relevantes de forma temprana, el entrenamiento posterior procede con una arquitectura ya optimizada. Supera limitaciones de métodos como la poda posterior al entrenamiento.

Adiós al entrenamiento obeso, hola a la dieta GPU ⚡

Parece que los modelos por fin van a poder hacer régimen desde el primer día, en lugar de engordar con parámetros y luego sufrir una liposucción post-entrenamiento traumática. Con CompreSSM, la GPU deja de sudar la gota gorda entrenando capacidades que luego serán descartadas. Es como si, tras unas clases, un alumno pudiera olvidar deliberadamente todo lo irrelevante para centrarse en lo importante. Un ahorro de tiempo y electricidad que hará llorar de emoción a la factura de la luz.