FalseReject: combatir los rechazos excesivos en modelos de lenguaje

mayo 15, 2025

En los últimos años, muchos modelos de lenguaje han adoptado una postura extremadamente cautelosa, rechazando solicitudes inofensivas que simplemente suenan «arriesgadas». Este fenómeno, conocido como sobre-rechazo, merma la utilidad de las IA en escenarios reales donde se requiere flexibilidad y sentido común.

Con la creciente adopción de sistemas basados en LLM y VLM, las empresas proveedoras se enfrentan a una mayor responsabilidad legal y reputacional. Si no se ofrecen controles más sofisticados al usuario medio, corren el riesgo de alejar a quienes buscan información legítima sobre temas sensibles.

FalseReject

Para abordar esta limitación, investigadores de Dartmouth College y Amazon han creado FalseReject, un conjunto de datos orientado a prompts que a primera vista parecen peligrosos, pero que en contexto son benignos. El objetivo es reentrenar los modelos para que respondan con criterio en lugar de rechazar por defecto.

El dataset incluye más de 16 000 ejemplos divididos en 44 categorías de seguridad. Cada prompt fue seleccionado tras pasar por un riguroso proceso de generación, validación y curación, asegurando que solo se mantuvieran aquellos que provocaban rechazos innecesarios en los modelos actuales.

Método

La creación de FalseReject siguió un flujo de cuatro etapas: un Generador que diseña los prompts usando grafos de entidades extraídas de datasets de seguridad previos; un Discriminador que evalúa si el ejemplo es genuinamente peligroso; un proceso de validación automatizado con varios LLM; y, finalmente, un Orquestador humano que certifica la benignidad contextual.

Tras depurar duplicados y ajustar la similitud semántica, se consolidaron dos conjuntos de entrenamiento (Train-Instruct y Train-CoT) y un test set de 1 100 ejemplos (FalseReject-Test), todos acompañados de respuestas estructuradas que combinan reflexión interna y reply directo al usuario.

Datos y pruebas

Benchmarking

En la fase de evaluación, se probó el benchmark FalseReject-Test con 29 modelos, desde GPT-4.5 y Claude-3.5 hasta diversas versiones de Llama, Qwen, Mistral y DeepSeek. Para clasificar las respuestas se empleó a Claude-3.5-Sonnet como juez, distinguiendo entre rechazo directo, cumplimiento parcial seguro y cumplimiento completo.

Se definieron dos métricas clave: la tasa de cumplimiento (porcentaje de respuestas no rechazadas) y la tasa de seguridad útil (USR), que valora la capacidad de ofrecer respuestas útiles sin renunciar a la precaución necesaria.

Ajuste fino

Para el fine-tuning, los investigadores integraron FalseReject con datos de instrucción general (Open-Thoughts y Tulu-3). En modelos de razonamiento se usó FalseReject-Train-CoT; en modelos no razonadores, FalseReject-Train-Instruct.

Los resultados mostraron mejoras significativas en la parte «benigna» de la USR, con respuestas más constructivas y menos rechazos innecesarios, sin comprometer el rendimiento en tareas de seguridad ni en benchmarks de habilidad general.

Conclusión

FalseReject representa un avance clave en la mitigación del sobre-rechazo, ofreciendo un método escalable para entrenar LLM con una tolerancia contextual más refinada. Sin embargo, el desafío mayor persiste: diseñar filtros que ofrezcan un equilibrio dinámico entre seguridad y utilidad en entornos de rápida evolución legal y social.

Aunque no explica completamente por qué ocurre el sobre-rechazo, este trabajo demuestra que, con datos estructurados y enfoques de razonamiento, es posible mejorar la interacción entre humanos y modelos de IA, reduciendo fricciones y preservando la confianza.