Evitando anacronismos: la IA y la precisión del pasado

Evitando anacronismos: la IA y la precisión del pasado

Introducción

Los generadores de imágenes basados en IA a menudo superponen elementos modernos en escenas históricas, como teléfonos inteligentes en el siglo XVIII o aspiradoras en el XIX. Este fenómeno revela una tendencia de los modelos a fusionar conceptos que aparecen juntos con frecuencia en sus datos de entrenamiento.

La confusión histórica surge por el entrelazamiento de atributos: si la IA asocia la acción de conversar con un smartphone en su entrenamiento, tenderá a colocar ese dispositivo aunque el escenario sea medieval. Así, la fidelidad cronológica queda comprometida.

Un pasado frágil

Más allá de los objetos anacrónicos, estos sistemas también tocan cuestiones culturales sensibles. Intentos de imponer equidad demográfica pueden resultar en revisiones históricas inverosímiles, como soldados de la Alemania nazi con perfiles étnicos fuera de contexto.

Series como Bridgerton ya influyen en los futuros conjuntos de datos, complicando la distinción entre fidelidad histórica y representación contemporánea. Mantener un equilibrio entre corrección social y rigor histórico es un reto constante.

Método y pruebas

Para evaluar el problema, investigadores de la Universidad de Zúrich crearon HistVis, un conjunto de 30 000 imágenes generadas con 100 prompts de actividades universales (cocinar, rezar, bailar) aplicados a diez épocas distintas, desde el siglo XVII hasta la actualidad.

Las imágenes se produjeron con tres modelos de difusión abiertos: Stable Diffusion XL, Stable Diffusion 3 y FLUX.1. De este modo, se aisló la variable del periodo histórico para analizar cómo cada IA interpreta las referencias temporales.

Dominio del estilo visual

Mediante una CNN basada en VGG16, los autores clasificaron los resultados en cinco estilos (dibujo, grabado, ilustración, pintura, fotografía). Así evaluaron si los modelos imponen por defecto estereotipos visuales según la época.

El índice Visual Style Dominance (VSD) midió la proporción de salidas dominadas por un único estilo. Descubrieron que, por ejemplo, SDXL asocia el XVII y XVIII al grabado, mientras SD3 y FLUX prefieren pinturas, y que la fotografía monocroma domina en décadas clave del siglo XX.

Consistencia histórica

Para detectar anacronismos, aprovecharon GPT-4o en dos fases: primero creó listas de objetos impropios de cada época y, luego, formuló preguntas de sí/no para verificar su presencia en las imágenes mediante visión y lenguaje.

Con métricas de frecuencia y severidad, identificaron elementos como smartphones, laptops o aspiradoras en escenas previas a su invención. SD3 fue el modelo con más anacronismos, seguido de FLUX.1 y SDXL.

Demografía

El estudio también analizó representación de género y raza usando FairFace y DeepFace para clasificar rostros, y GPT-4o para estimar distribuciones históricas de referencia. Midiendo sobre/infra­representación, hallaron sesgos constantes hacia rostros blancos y perfiles masculinos en actividades como el trabajo o la educación.

Estos resultados apuntan a que las IA reproducen correlaciones de sus datos más que una comprensión histórica genuina, afectando la verosimilitud de las escenas creadas.

Conclusión

Los hallazgos muestran que las IA de difusión no separan limpiamente los conceptos según la época, sino que agrupan las ideas por frecuencia y contexto de uso. Por eso, el pasado se reduce a estereotipos visuales más que a detalles históricos auténticos.

Desenredar estos entrelazamientos y mejorar la precisión cronológica requerirá avances en la descomposición de conceptos superpuestos, así como conjuntos de datos especializados que refuercen la fidelidad temporal.

Share this post :

Facebook
Twitter
LinkedIn
Pinterest

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Murketing
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.