HunyuanCustom: Deepfakes de vídeo a partir de una sola imagen con audio sincronizado

HunyuanCustom: Deepfakes de vídeo a partir de una sola imagen con audio sincronizado

Resumen

HunyuanCustom es una versión mejorada del modelo Hunyuan Video de Tencent, diseñada para generar vídeos personalizados a partir de una sola imagen y un texto descriptivo. Gracias a esta arquitectura multimodal, el sistema integra prompt de texto, imagen de referencia y audio para producir resultados realistas.

La novedad principal radica en prescindir de múltiples imágenes de un sujeto o LoRA específicas, confiando en un módulo de mejora de identidad y control preciso del latente 3D-VAE para mantener la coherencia facial y corporal a lo largo de todo el clip.

Personalización de vídeo

La generación se basa en un embebido conjunto de la imagen de referencia y el prompt de texto mediante LLaVA, adaptado para preservar detalles de identidad. Un módulo de realce de identidad refina los rasgos faciales antes de inyectarlos en la difusión latente temporal.

Para escenarios con múltiples sujetos, cada par imagen-texto se procesa por separado y se asigna una posición temporal distinta, lo que da lugar a interacciones naturales entre personajes y objetos en la escena.

Sincronización de audio y labios

HunyuanCustom incorpora LatentSync para lograr una sincronización labial precisa con la pista de audio o el texto pronunciado. El sistema divide el audio en segmentos temporales y, mediante atención espacial, mapea los movimientos de boca y gestos faciales al ritmo de la voz.

El módulo AudioNet, junto con una inyección temporal fina vía MLP, garantiza que los desplazamientos de los rasgos faciales sigan la entonación, creando animaciones habladas realistas sin perder la fidelidad de identidad.

Edición de vídeo existente

La función de vídeo a vídeo (V2V) permite enmascarar y reemplazar selectivamente sujetos u objetos en clips reales. Utiliza el 3D-VAE causal para comprimir la referencia y combinar latentes, evitando artefactos y manteniendo intacto el fondo no editado.

Este enfoque ligero supera a métodos basados en máscaras rígidas o copia-pega, logrando integraciones fluidas y coherentes con el entorno original, tal como se observa en ejemplos de juguetes y productos interpuestos en escenas reales.

Datos y evaluación

El entrenamiento se nutre de vídeos sintéticos y de código abierto, segmentados y etiquetados con PySceneDetect, TextBPN-Plus-Plus, YOLO11X, InsightFace y Grounded SAM 2, entre otros. Se aplican filtros estéticos y métricas de calidad (HyperIQA) para garantizar datos limpios.

En pruebas comparativas, HunyuanCustom logra la mejor consistencia de identidad (ArcFace) y similitud de sujeto (DINO), además de resultados competitivos en alineación texto-video (CLIP-B) y consistencia temporal, superando a competidores como Kling, Vidu o Pika.

Conclusión

HunyuanCustom marca un avance significativo en generación de vídeo deepfake y edición V2V mediante una sola imagen, integrando audio y lip-sync de forma nativa. Aunque sus limitaciones en ángulos extremos persisten, ofrece una solución accesible y potente para creadores y profesionales.

Con su código y pesos disponibles en GitHub, se espera que la comunidad adapte versiones optimizadas en memoria y extienda su compatibilidad a Windows y entornos ligeros, consolidando un nuevo estándar en vídeo personalizado por IA.

Share this post :

Facebook
Twitter
LinkedIn
Pinterest

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Murketing
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.