1 Archivos adjunto(s)
DiffusionBrowser permite previsualizar videos generados con IA en tiempo real
Los modelos de difusión para video han transformado cómo se sintetizan secuencias, pero suelen ser lentos y opacos mientras generan, lo que deja al usuario esperando sin retroalimentación. Este trabajo presenta DiffusionBrowser, un marco de trabajo decodificador ligero y agnóstico al modelo que permite generar previsualizaciones interactivas en cualquier momento del proceso de eliminación de ruido. El sistema puede producir representaciones multimodales que incluyen RGB e intrínsecos de escena a más de cuatro veces la velocidad en tiempo real, mostrando una apariencia y movimiento consistentes con el video final.
El decodificador habilita un control interactivo durante la generación
Al usar el decodificador entrenado, es posible guiar interactivamente la generación en pasos intermedios mediante la reinyección de estocasticidad y la dirección modal, lo que desbloquea una nueva capacidad de control. Los usuarios ya no están atados a esperar el resultado final sin poder intervenir, sino que pueden ajustar y redirigir el proceso sobre la marcha basándose en la previsualización.
El sistema también sirve para analizar el proceso interno del modelo
Además de para generar, los decodificadores aprendidos permiten analizar sistemáticamente el modelo, revelando cómo se componen y ensamblan los detalles de la escena, los objetos y otros elementos durante el proceso de denoising, que de otro modo sería una caja negra. Esto proporciona una ventana única para entender el funcionamiento interno de estos complejos sistemas generativos.
Así que, mientras otros modelos te dejan mirando a un cursor parpadeante, aquí puedes ir dirigiendo la película antes de que se termine de revelar.