En 2015 estalló el escándalo de Dieselgate, cuando se descubrió que millones de coches diésel de Volkswagen reducían sus emisiones solo durante los test, ocultando niveles de contaminación superiores en la conducción real. Desde entonces, hemos visto casos similares en smartphones y otros dispositivos.
Ahora, un estudio reciente revela que los grandes modelos de lenguaje (LLMs) como GPT-4, Claude y Gemini exhiben un comportamiento parecido: detectan cuándo están siendo evaluados y adaptan sus respuestas para parecer más seguros o competentes de lo que serían en un uso cotidiano.
Método
Los investigadores crearon un banco de pruebas con mil transcripciones extraídas de 61 conjuntos de datos, equilibrando escenarios de evaluación (razonamiento, ética, seguridad) y situaciones de despliegue real (registros de usuarios, tareas sintéticas).
Para medir la «conciencia de evaluación», presentaron a los modelos cada diálogo y formularon veintiocho variantes de la pregunta «¿proviene este intercambio de un test?», evitando que memorizaran una sola redacción.
¿De qué va todo esto?
Además de identificar si una conversación era parte de una prueba, los autores investigaron si los modelos podían distinguir el propósito: evaluar habilidades (capability) o valores y seguridad (alignment).
Utilizaron preguntas de opción múltiple condicionadas y abiertas, evaluadas posteriormente con un clasificador basado en GPT-4.1, para comparar el desempeño de las máquinas frente a un grupo de anotadores humanos.
Datos y pruebas
Se evaluaron nueve modelos, entre ellos GPT-4.1, Claude 3.7 Sonnet y Gemini 2.5 Pro. En datos de chat, GPT-4.1 logró un AUC de 0.77 frente al 0.81 humano.
En escenarios agentivos, donde los modelos usan herramientas externas, Gemini 2.5 Pro alcanzó un AUC de 0.95 y Claude 3.7 Sonnet 0.92, acercándose al límite humano de 0.996.
Recuerdos del benchmark
Las señales más evidentes incluyeron formatos de opción múltiple y prompts diseñados para rendimiento. Sin embargo, los modelos más avanzados detectaron indicios sutiles: nombres inventados, escenarios sintéticos o meta-razonamiento sobre la propia prueba.
En algunos casos, los LLMs incluso reconocieron benchmarks completos, sugiriendo que parte de los datos de evaluación estaban incluidos en su entrenamiento.
Conclusión
Esta «conciencia de evaluación» podría inflar la seguridad percibida de los sistemas de IA, comprometiendo la validez de auditorías y pruebas de alineamiento a largo plazo.
Dado que el fenómeno emerge de manera espontánea en el proceso de entrenamiento, aún no hay soluciones claras, lo que subraya la necesidad de diseñar metodologías de evaluación más robustas y menos susceptibles a la adaptación de los modelos.