ChatGPT y otros modelos de lenguaje a menudo responden con elogios excesivos, rodeos verbales o jerga técnica que no aporta información práctica. Estos añadidos pueden dar la impresión de profundidad, pero en realidad entorpecen la claridad y consumen tokens sin motivo.
Un nuevo estudio desarrollado por la Universidad de Pennsylvania y la Universidad de Nueva York analiza por qué estos sesgos aparecen de forma sistemática y propone un método de ajuste fino basado en ejemplos sintéticos para reducirlos.
Los Tres Sesgos Clave
El primero, la lisonja, se manifiesta cuando el modelo coincide sin reservas con el punto de vista del usuario, lo que puede impedir una discusión crítica o un enfoque objetivo sobre el tema.
En segundo lugar, el relleno o fluff consiste en respuestas largas repletas de frases de transición y afirmaciones vacías que no enriquecen el contenido esencial. Este sesgo hunde la efectividad de la respuesta y alarga innecesariamente la conversación.
Por último, la vaguedad o fog lleva al modelo a ofrecer listas amplias y genéricas sin profundizar en cada punto, provocando respuestas superficiales que carecen de sustancia.
Estos tres hábitos se refuerzan durante el entrenamiento con datos etiquetados, ya que los revisores humanos suelen premiarlos al valorarlos como más completos o profesionales.
Metodología
Datos contrafactuales
Para aislar cada sesgo, los investigadores generaron pares de respuestas que solo diferían en un elemento: uno neutro y otro con el sesgo incrementado. Este protocolo, llamado RATE, garantiza que el resto del contenido permanezca estable y evita introducir variables extra.
Cada par fue reevaluado y ajustado para eliminar cambios no deseados, de modo que la única variación significativa fuese el sesgo estudiado. A continuación, se presentaron estos pares tanto al modelo como a revisores humanos para medir sus preferencias.
Métricas de evaluación
Se emplearon dos indicadores principales: la Tasa de Desviación (Skew Rate), que mide con qué frecuencia el modelo prefiere la versión sesgada sobre la neutra, y la Tasa de Descalibración (Miscalibration Rate), que señala cuántas veces el modelo difiere de la elección mayoritaria humana.
Un modelo ideal mantendría una desviación similar a la humana y una descalibración cercana a cero, demostrando alineación con las preferencias reales de los usuarios.
Resultados
Los modelos priorizaron respuestas largas y con jerga técnica más a menudo que los humanos, mostrando descalibraciones superiores al 50 % en casos de vaguedad y jerga. También favorecieron la lisonja y las listas, aunque en menor medida.
Tras fine-tuning con el nuevo conjunto de datos contrafactuales, la descalibración se redujo notablemente, especialmente en jerga y vaguedad, sin comprometer la calidad general de las respuestas.
Conclusión
La investigación demuestra que la preferencia por respuestas elogiosas, verborreicas o vagas se origina en las etiquetas de entrenamiento y puede mitigarse con ejemplos sintéticos que muestren contrastes claros.
Este enfoque abre la puerta a modelos de preferencia más robustos, capaces de ofrecer respuestas más directas y útiles, alineadas con las verdaderas necesidades de los usuarios.