Un reciente estudio conjunto de Microsoft Research y Salesforce demuestra que incluso los modelos de lenguaje más avanzados experimentan una caída media del 39 % en su desempeño cuando las instrucciones se suministran en varios turnos en lugar de en un único prompt completo.
Los autores proponen un método denominado sharding, que divide una instrucción integral en fragmentos y los va revelando uno a uno, emulando una charla bi-direccional más natural pero, sorprendentemente, menos efectiva.
Conversaciones fragmentadas
El enfoque de sharding parte de descomponer un prompt autónomo en piezas que se revelan al modelo en diferentes momentos de la conversación. Así, la instrucción completa se reconstruye progresivamente, aunque de forma fragmentada.
Este procedimiento contrasta con la entrega de una única orden –la forma típica de evaluar a los LLM– y refleja mejor la interacción real con usuarios, pero revela debilidades en la memoria y el seguimiento de contexto de las IA.
Escenarios de simulación
Para analizar el efecto de la fragmentación, los investigadores diseñaron cinco configuraciones: Full (instrucción completa), Sharded (pedazos sucesivos), Concat (shards concatenados), Recap (revisión final) y Snowball (repetición de todo en cada turno).
Cada modalidad sirve para aislar cómo la dispersión de la información o la reformulación impactan en la precisión y la coherencia de las respuestas del modelo.
Tareas y métricas
Se evaluaron seis tipos de tareas: generación de código, consultas Text-to-SQL, llamadas a API, problemas de matemáticas, descripción de tablas y resúmenes de múltiples documentos.
El desempeño se midió mediante tres indicadores clave: rendimiento medio, aptitud (mejor resultado posible) y inestabilidad (variación entre mejores y peores respuestas).
Modelos evaluados y resultados
Se probaron quince modelos, entre ellos GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet y Llama 3.1-8B. En total se generaron más de 200 000 simulaciones para comparar los distintos escenarios.
En todas las pruebas, el rendimiento cayó drásticamente en el modo Sharded, con descensos de hasta el 40 % frente al escenario Full, un fenómeno bautizado como “Lost in Conversation”.
Fiabilidad
A pesar de que algunos modelos mantienen una aptitud relativamente alta, su inestabilidad se duplica en conversaciones fragmentadas, con fluctuaciones de hasta 50 puntos en la misma tarea.
Esta volatilidad sugiere que la degradación no se debe al azar puro, sino a una dificultad estructural de los LLM para sostener contexto a lo largo de múltiples turnos.
Control de temperatura
Reducir la aleatoriedad (temperatura 0.0) mejora la consistencia en prompts únicos, pero apenas mitiga la inestabilidad en el escenario Sharded, confirmando que el problema va más allá de la variabilidad estadística.
Incluso con temperatura mínima, los modelos continúan perdiendo coherencia en diálogos fragmentados, lo que evidencia una debilidad inherente en la gestión de entradas parciales.
Implicaciones
Los hallazgos alertan de que los benchmarks de un solo turno sobrestiman la capacidad real de los LLM en entornos conversacionales. Confiar únicamente en prompts completos oculta fallos graves cuando el diálogo evoluciona en fragmentos.
Los autores argumentan que la habilidad multi-turno debe incorporarse de forma nativa en los modelos, en lugar de delegarse a sistemas externos de orquestación de agentes.
Conclusión
Este trabajo pone de relieve una limitación crucial de los LLM: su tendencia a “perderse” cuando la instrucción se distribuye en varios turnos.
La investigación sugiere que, para lograr interacciones más robustas, es necesario rediseñar la arquitectura de los modelos y sus mecanismos de gestión de contexto, garantizando soporte multi-turno confiable.