PYoCo es un modelo de difusión de texto a video

**3dpoder** · 24-05-2023

Investigadores de NVIDIA, la Universidad de Chicago y la Universidad de Maryland han presentado PYoCo, un modelo innovador a gran escala que combina texto y video. Este modelo se basa en el exitoso eDiff-I, un avanzado generador de imágenes, pero incluye una novedosa técnica de video de ruido previo.

Según los desarrolladores, PYoCo incorpora diversas técnicas eficaces de investigaciones anteriores, como la atención temporal, el refinamiento conjunto de imágenes y videos, una arquitectura de generación en cascada y un conjunto de eliminadores de ruido expertos.

Nos referimos a mejoras que permiten superar a otros métodos en múltiples conjuntos de datos de referencia. En el documento compartido por el equipo, también se destaca la capacidad del modelo para lograr una síntesis de video de alta calidad sin necesidad de material de referencia, ofreciendo un fotorrealismo superior y una consistencia temporal excepcional.

Puedes obtener más información sobre el desarrollo aquí.

**3dpoder** · 24-05-2023

A pesar de los avances significativos en la creación de imágenes de alta calidad utilizando modelos de difusión, todavía estamos en las primeras etapas de sintetizar secuencias animadas que sean realistas tanto en apariencia como en coherencia temporal. Aunque existen conjuntos de datos listos para su uso en la generación de imágenes a gran escala, recolectar datos de video de tamaño similar sigue siendo un desafío. Además, entrenar un modelo de difusión de video requiere mucho más poder computacional en comparación con su contraparte de imágenes.

En este estudio, investigamos el ajuste fino de un modelo de difusión de imágenes previamente entrenado utilizando datos de video como una solución práctica para la síntesis de video. Descubrimos que simplemente extender el ruido de la imagen antes del ruido del video, antes de aplicar la difusión del video, no produce resultados óptimos. En cambio, nuestro enfoque cuidadosamente diseñado de generación de ruido en el video produce resultados notablemente mejores.

Realizamos una amplia validación experimental que demuestra que nuestro modelo, llamado Preserve Your Own Correlation (PYoCo), logra resultados líderes en la generación de video a partir de texto sin disparadores en los conjuntos de referencia UCF-101 y MSR-VTT. Además, nuestro modelo alcanza la calidad líder en la generación de video en el conjunto de referencia UCF-101 a pequeña escala, utilizando un modelo 10 veces más pequeño y requiriendo significativamente menos capacidad de cómputo en comparación con las técnicas anteriores.

Tema: PYoCo es un modelo de difusión de texto a video

Herramientas

PYoCo es un modelo de difusión de texto a video

Síntesis de video de alta calidad con el modelo PYoCo

Temas similares

Problemas al aplicar la función mirror en un modelo fotogramétrico con texto

Cómo poner un video dentro de un texto en After Effects

Texto 3d sobre fondo de una escena de video

Video tutorial 3dStudio Max 2014 lección 5 crear texto en 3d

Cómo introducir texto dentro de video en movimiento

Etiquetas para este tema