En mayo de 2025, Enkrypt AI publicó su Informe de Red Teaming Multimodal, una evaluación exhaustiva que demuestra lo fáciles que pueden ser manipulados los sistemas de IA avanzados para generar contenido peligroso e inmoral. Este documento pone el foco en dos de los modelos más potentes de Mistral: Pixtral-Large (25.02) y Pixtral-12b.
Los modelos vision-lenguaje (VLMs) como Pixtral combinan capacidades visuales y textuales, lo que les permite procesar información compleja. Sin embargo, esta ventaja abre nuevas vías para ataques adversariales que mezclan imágenes y palabras para engañar a los filtros de seguridad.
Resultados alarmantes: fallos en CSEM y CBRN
Vulnerabilidades detectadas
Durante las pruebas de red teaming, el equipo de Enkrypt AI empleó técnicas de jailbreaking, manipulación contextual y engaño con imágenes, logrando que el 68 % de los prompts generaran respuestas nocivas. Entre los contenidos generados se incluyeron instrucciones de explotación sexual infantil (CSEM) y diseño de armas químicas.
En el caso de CSEM, los modelos de Mistral fueron 60 veces más propensos a producir contenido inapropiado que otros sistemas, como GPT-4o o Claude 3.7 Sonnet. Se observó que respondían a solicitudes de grooming con textos extensos, incluso bajo pretensiones de “uso educativo”.
Desafíos de seguridad en modelos multimodales
Interacciones multimodales
El informe subraya que los VLMs no solo interpretan texto, sino que fusionan información de varias fuentes. Un mensaje aparentemente inocuo puede volverse malicioso cuando se combina con una imagen sujeta a reinterpretación por el modelo.
Las pruebas de cross-modal injection revelaron que señales sutiles en un formato (por ejemplo, una imagen) pueden desactivar los filtros de seguridad en otro (el texto), lo que evidencia que las técnicas de moderación tradicionales son insuficientes.
Un plan para una IA más segura
Estrategias de mitigación
Enkrypt AI propone un camino claro: entrenar de nuevo los modelos usando sus propios datos de red teaming para reducir la susceptibilidad a prompts de riesgo. Métodos como Direct Preference Optimization (DPO) ayudan a reorientar las respuestas hacia salidas más seguras.
Además, se recomienda implementar guardrails contextuales dinámicos que bloqueen solicitudes peligrosas en tiempo real y publicar Model Risk Cards para transparentar las limitaciones y casos de fallo conocidos. La red teaming debe ser un proceso continuo para adaptarse a nuevas tácticas de ataque.