Los modelos de generación automática de video basados en texto, como Kling, Kaiber, Adobe Firefly y OpenAI Sora, emplean filtros de seguridad para impedir la producción de contenido que las empresas consideran inapropiado. A pesar de combinar moderación humana y automática, estas barreras son vulnerables a ataques deliberados.
Investigadores de Singapur y China han desarrollado el primer método basado en optimización para reescribir solicitudes bloqueadas, manteniendo el significado original y eludiendo los filtros. Sus pruebas en varias plataformas revelan la fragilidad de los sistemas actuales.
Metodología
El enfoque consiste en tratar la generación de prompts como un problema de optimización con tres objetivos: conservar la semántica original (evaluada con un encoder CLIP), superar el filtro de seguridad y asegurar que el video resultante refleje fielmente la intención inicial.
Para ello, se emplea ChatGPT-4o en un proceso iterativo que produce variantes del prompt original. Cada versión se puntúa según los tres criterios y se retroalimenta a una función de pérdida que guía al sistema hacia la mejor reescritura.
Detección de mutaciones en los prompts
Durante las pruebas, los resultados mostraron que un único prompt reescrito podía funcionar en una ejecución y fallar en la siguiente. Para contrarrestar esto, los investigadores introdujeron una estrategia de mutación de prompts.
En cada ronda, el sistema genera varias variantes con ligeros cambios de redacción. Estas versiones se evalúan y su puntuación promedio decide cuál avanza a la siguiente iteración, garantizando mayor consistencia en la evasión de filtros.
Evaluación de resultados
Se evaluó el método en cuatro modelos (Pika, Luma, Kling y Open-Sora) usando métricas de T2VSafetyBench: tasa de éxito de ataque (ASR) y similitud semántica. Open-Sora resultó el más vulnerable, con un ASR del 64,4 % según GPT-4 y 66,3 % en evaluación humana.
Pika, Luma y Kling mostraron menores índices de ataque (53,6 %–34,7 %), aunque la nueva técnica superó consistentemente a los métodos base en ASR y mantuvo mejor la coherencia semántica con las solicitudes originales.
Conclusiones
Este estudio revela la facilidad con que se pueden quebrantar los filtros de seguridad en sistemas de video generativo, evidenciando el carácter reactivo y fragmentado de las defensas actuales. Añadir términos bloqueados uno a uno se convierte en un juego de «golpe y desaparece» ante cada nueva versión de los modelos.
Los hallazgos subrayan la urgencia de diseñar mecanismos de protección más sofisticados, que combinen detección proactiva y adaptación dinámica, para mitigar los riesgos de uso malintencionado de la inteligencia artificial en la generación audiovisual.