1 Archivos adjunto(s)
MemFlow genera vídeos manteniendo la coherencia visual
El principal reto al generar vídeos en streaming es mantener la coherencia del contenido a lo largo de secuencias largas, lo que exige un diseño de memoria muy eficiente. La mayoría de las soluciones actuales comprimen los fotogramas históricos usando estrategias fijas. Sin embargo, cada nuevo fragmento de vídeo que se genera puede necesitar referenciar pistas visuales diferentes del pasado, algo difícil de lograr con un método rígido. MemFlow propone un enfoque dinámico para resolver este problema.
MemFlow actualiza la memoria de forma dinámica
Antes de generar un nuevo fragmento de vídeo, el sistema actualiza su banco de memoria recuperando automáticamente los fotogramas históricos más relevantes. Para hacerlo, utiliza el texto descriptivo asociado al fragmento que se va a crear. Este diseño no solo localiza con precisión el contexto visual necesario para mantener la coherencia, sino que también asegura una transición semántica fluida incluso cuando aparecen nuevos eventos o la escena cambia.
El proceso activa solo los tokens relevantes
Durante la generación, en las capas de atención del modelo, solo se activan los tokens más relevantes almacenados en el banco de memoria para cada consulta. Este mecanismo garantiza la eficiencia del proceso. De esta forma, MemFlow logra una coherencia excepcional en contextos largos con una carga computacional mínima, reduciendo la velocidad solo un 7.9% comparado con un modelo base sin memoria. Además, el sistema es compatible con cualquier modelo de generación de vídeo en streaming que utilice una caché de claves y valores.
Así que, si tu vídeo generado muestra a un personaje cambiando misteriosamente el color de su camisa entre planos, no culpes a MemFlow, culpa a que aún no lo has instalado.
Puedes descargar la aplicación desde aquí.