Phase 18 - Lesson 20

Sesgo y Daño de Representación en LLMs

Gallegos, Rossi, Barrow, Tanjim, Kim, Dernoncourt, Yu, Zhang, Ahmed (Computational Linguistics 2024, arXiv:2309.00770). Estudio fundacional de 2024 que distingue los daños de representación (estereotipos, borrado) de los daños de asignación (distribución desigual de recursos) y categoriza las métricas de evaluación como basadas en embeddings, basadas en probabilidad o basadas en texto generado. Empírico de 2024-2025: An et al. (PNAS Nexus, marzo de 2025) miden el sesgo interseccional de género x raza en GPT-3.5 Turbo, GPT-4o, Gemini 1.5 Flash, Claude 3.5 Sonnet y Llama 3-70B en la evaluación automatizada de currículums para 20 puestos de nivel inicial. WinoIdentity (COLM 2025, arXiv:2508.07111) introduce la evaluación de equidad basada en la incertidumbre para identidades interseccionales. Yu & Ananiadou 2025 identifican neuronas de género en capas MLP; Ahsan & Wallace 2025 utilizan SAEs para revelar el sesgo racial clínico; Zhou et al. 2024 (UniBias) manipulan cabezas de atención para la eliminación de sesgos. Meta-crítica (arXiv:2508.11067): la literatura de 10 años se centra desproporcionadamente en el sesgo de género binario.

Tipo: Build Lenguajes: Python (stdlib, sonda de sesgo simple basada en embeddings) Prerrequisitos: Fase 05 (embeddings de palabras), Fase 18 · 01 (seguimiento de instrucciones) Tiempo: ~60 minutos

Objetivos de Aprendizaje

Definir el daño de representación frente al daño de asignación y dar un ejemplo de cada uno en el despliegue de un LLM.
Nombrar las tres categorías de métricas de evaluación de Gallegos et al. 2024 y describir una métrica de cada una.
Describir la interseccionalidad y por qué la medición de equidad basada en la incertidumbre de WinoIdentity aborda las brechas en la evaluación del sesgo de un solo eje.
Describir dos enfoques de interpretabilidad mecanicista para el sesgo (neuronas de género, características de SAE, manipulación de cabezas de atención).

El Problema

Las lecciones anteriores cubren el daño deliberado (jailbreaks, intrigas) y la gobernanza de la seguridad. El sesgo es un daño que surge sin intención — a partir de distribuciones de datos de entrenamiento, del encuadramiento de prompts y de elecciones de diseño acumuladas. Medirlo y reducirlo es un desafío metodológico diferente de la robustez adversaria.

El Concepto

Representación vs asignación

Daño de representación (representational harm). Estereotipos, borrado, retratos degradantes. Un LLM que describe a los enfermeros como exclusivamente mujeres está produciendo un daño de representación.
Daño de asignación (allocational harm). Resultados materiales desequilibrados. Un LLM que califica los currículums de los solicitantes negros sistemáticamente más bajo está produciendo un daño de asignación.

Estos no son lo mismo. Un modelo puede ser "libre de sesgo de representación" (produce representaciones diversas) mientras que es "sesgado en la asignación" (hace recomendaciones desiguales). Las evaluaciones necesitan medir ambos.

Tres categorías de métricas de evaluación (Gallegos et al. 2024)

Basadas en embeddings (embedding-based). Pruebas tipo WEAT en embeddings pre-RLHF. Mide asociaciones estadísticas entre términos de identidad y términos de atributos. Limitado: mide la representación, no el comportamiento.
Basadas en probabilidad (probability-based). Log-verosimilitud de completados que confirman estereotipos vs completados que violan estereotipos. Medición en el lado del decodificador. Captura cierto sesgo conductual.
Basadas en texto generado (generated-text-based). Medición de la tarea posterior en el texto generado. Calificación de currículums, redacción de recomendaciones, diálogo. Más válida ecológicamente; más difícil de reproducir.

Interseccionalidad

La evaluación del sesgo sobre el "género" pasa por alto el sesgo que solo se activa en parejas de (género, raza). An et al. 2025 descubren que GPT-4o penaliza a las mujeres negras en la calificación de currículums más que a los hombres negros y más que a las mujeres blancas por separado. La evaluación de un solo eje no puede capturar esto.

WinoIdentity (COLM 2025) introduce la equidad interseccional basada en la incertidumbre. Mide si la incertidumbre del modelo sobre los resultados difiere entre tuplas de identidad interseccionales, no solo la predicción puntual. Esto detecta casos en los que el modelo se equivoca por igual entre los grupos pero es más incierto para algunos, lo que produce diferentes comportamientos de asignación posteriores.

Enfoques mecanicistas

El trabajo de interpretabilidad de 2024-2025 abre el sesgo a la intervención mecanicista:

Neuronas de género (Yu & Ananiadou 2025). Neuronas MLP específicas se correlacionan con comportamientos específicos de género. Eliminar (ablatar) estas neuronas reduce las métricas de brecha de género con un costo de capacidad limitado.
Sesgo racial clínico mediante SAEs (Ahsan & Wallace 2025). Las características de los sparse autoencoders descomponen la representación interna en dimensiones interpretables; las características correlacionadas con la raza se pueden identificar y suprimir.
UniBias (Zhou et al. 2024). Manipulación de cabezas de atención para la mitigación de sesgos en modo zero-shot. Cabezas específicas amplifican la sensibilidad a la clase de identidad; poner a cero o reponderar estas cabezas reduce el sesgo sin ajuste fino.

La meta-crítica

La revisión de la literatura de 10 años (arXiv:2508.11067, 2025) concluye que el campo se centra desproporcionadamente en el sesgo de género binario. Otros ejes — discapacidad, religión, estatus migratorio, identidad multilingüe — reciben mucha menos atención. La meta-crítica argumenta que el enfoque estrecho puede perjudicar a los grupos marginados por negligencia: un modelo bien mitigado en género binario puede estar gravemente sesgado en dimensiones que nadie comprobó.

Dónde encaja esto en la Fase 18

Las Lecciones 20 y 21 cubren el sesgo y la equidad formalmente. La Lección 22 cubre la privacidad. La Lección 23 cubre las marcas de agua. Estas constituyen la capa de daño al usuario que complementa la capa anterior de engaño/seguridad.

Use It

El archivo code/main.py construye una sonda simple de sesgo basada en embeddings: mide la distancia tipo WEAT entre términos de identidad y términos de atributos en un embedding simple de coocurrencia. Puedes inyectar un sesgo y observar cómo se activa la métrica; aplicar una operación simple de eliminación de sesgo y observar la recuperación parcial.

Ship It

Esta lección produce outputs/skill-bias-eval.md. Dada una tarjeta de modelo (model card) o una afirmación de equidad, audita la evaluación en las tres categorías de métricas (embeddings, probabilidad, texto generado), la cobertura de interseccionalidad y el mecanismo de cualquier intervención de mitigación de sesgo.

Ejercicios

Ejecuta code/main.py. Reporta las puntuaciones de sesgo tipo WEAT antes y después del paso de mitigación. Explica por qué la métrica no cae a cero.
Extiende la sonda con una prueba interseccional: (género, raza) x (carrera, family). Reporta las puntuaciones de sesgo cruzado entre ejes.
Lee An et al. 2025 (PNAS Nexus). Identifica los dos efectos interseccionales que reportan y que una evaluación de género de un solo eje pasaría por alto.
Yu & Ananiadou 2025 identifican neuronas de género. Esboza un experimento de falsación que distinguiría "estas neuronas causan el sesgo de género" de "estas neuronas se correlacionan con el sesgo de género".
La meta-crítica argumenta que el campo se centra demasiado estrechamente en el género binario. Elige un eje poco estudiado y describe un protocolo de medición del daño de representación para él.

Términos Clave

Término	Lo que dice la gente	Lo que realmente significa
Daño de representación	"estereotipos / borrado"	Retrato sesgado de un grupo
Daño de asignación	"decisones desiguales"	Resultado material sesgado para un grupo
WEAT	"la prueba de embedding"	Word Embedding Association Test; sonda de sesgo basada en coocurrencia
Interseccionalidad	"efectos de identidad combinados"	Sesgo que surge en la intersección de múltiples ejes de identidad
Neuronas de género	"neuronas de sesgo MLP"	Neuronas específicas cuyas activaciones se correlacionan con el comportamiento específico de género
Característica de SAE	"dimensión interpretable"	Característica identificada por sparse autoencoder; útil para el análisis mecanicista del sesgo
UniBias	"mitigación de sesgo por cabeza de atención"	Eliminación de sesgo zero-shot reponderando las cabezas de atención

Lecturas Recomendadas

Gallegos et al. — Bias and Fairness in LLMs: A Survey (arXiv:2309.00770, Computational Linguistics 2024) — estudio canónico
An et al. — Intersectional resume-evaluation bias (PNAS Nexus, March 2025) — estudio interseccional de cinco modelos
WinoIdentity — uncertainty-based intersectional fairness (arXiv:2508.07111, COLM 2025) — nuevo benchmark
UniBias — attention-head manipulation (Zhou et al. 2024, ACL) — mitigación de sesgo zero-shot