1 Archivos adjunto(s)
Los generadores de video no entienden la gravedad, pero podemos enseñarles
Un estudio reciente investiga si los modelos generativos de video, cada vez más evaluados como posibles modelos del mundo, comprenden realmente las leyes físicas fundamentales, empezando por la gravedad. Los resultados iniciales son claros: de serie, estos sistemas generan objetos que caen con una aceleración efectiva mucho más lenta de lo esperado. La primera hipótesis apunta a una ambigüedad en la escala métrica o la tasa de fotogramas, pero incluso tras corregir estos factores, el error físico persiste con una alta variabilidad, lo que sugiere un problema más profundo en la representación interna del modelo.
Un protocolo sin unidades para aislar el error físico
Para aislar rigurosamente la representación física de los factores de confusión visual, los investigadores introducen un protocolo ingenioso que prescinde de unidades. En lugar de medir la aceleración absoluta, prueban la relación de tiempos entre la caída de dos objetos desde alturas diferentes, una proporción que debería cumplir la ley de Galileo y ser independiente de la gravedad, la escala o la distancia focal. El test revela que los modelos violan este principio de equivalencia, confirmando que su representación de la dinámica gravitatoria es inherentemente incorrecta y no un simple artefacto de interpretación.
Especialización dirigida para corregir leyes específicas
La buena noticia es que esta brecha física puede mitigarse. Demuestran que un adaptador ligero de bajo rango, especializado y entrenado con apenas cien clips de una sola pelota cayendo, mejora drásticamente el rendimiento. La aceleración efectiva generada pasa de 1.81 m/s² a 6.43 m/s², alcanzando el 65% de la gravedad terrestre. Lo más prometedor es que este adaptador especialista generaliza su conocimiento de forma cero-shot a escenarios más complejos, como la caída de dos pelotas o planos inclinados, sugiriendo que es posible corregir leyes físicas concretas con conjuntos de datos mínimos y sin reentrenar el modelo base por completo.
Así que, mientras esperamos a que la IA domine las leyes del universo, al menos podemos confiar en que, con un pequeño empujón, ya no hará que los objetos caigan como si estuvieran en la Luna a menos que se lo pidamos expresamente.