Phase 18 - Lesson 20

Viés e Dano de Representação em LLMs

Gallegos, Rossi, Barrow, Tanjim, Kim, Dernoncourt, Yu, Zhang, Ahmed (Computational Linguistics 2024, arXiv:2309.00770). Levantamento fundacional de 2024 que distingue danos de representação (estereótipos, apagamento) de danos de alocação (distribuição desigual de recursos) e categoriza as métricas de avaliação como baseadas em embeddings, baseadas em probabilidade ou baseadas em texto gerado. Empírico de 2024-2025: An et al. (PNAS Nexus, Março de 2025) medem o viés interseccional de gênero x raça no GPT-3.5 Turbo, GPT-4o, Gemini 1.5 Flash, Claude 3.5 Sonnet e Llama 3-70B em avaliação automatizada de currículos para 20 cargos de nível iniciante. WinoIdentity (COLM 2025, arXiv:2508.07111) introduz a avaliação de equidade baseada em incerteza para identidades interseccionais. Yu & Ananiadou 2025 identificam neurônios de gênero em camadas MLP; Ahsan & Wallace 2025 usam SAEs para revelar o viés racial clínico; Zhou et al. 2024 (UniBias) manipulam cabeças de atenção para remoção de viés. Meta-crítica (arXiv:2508.11067): literatura de 10 anos foca desproporcionalmente no viés de gênero binário.

Tipo: Build Linguagens: Python (stdlib, sonda de viés simples baseada em embeddings) Pré-requisitos: Fase 05 (embeddings de palavras), Fase 18 · 01 (seguimento de instruções) Tempo: ~60 minutos

Objetivos de Aprendizado

Definir dano de representação vs dano de alocação e fornecer um exemplo de cada em uma implantação de LLM.
Nomear as três categorias de métricas de avaliação de Gallegos et al. 2024 e descrever uma métrica de cada.
Descrever a interseccionalidade e por que a medição de equidade baseada em incerteza do WinoIdentity aborda lacunas na avaliação de viés de eixo único.
Descrever duas abordagens de interpretabilidade mecanicista para viés (neurônios de gênero, características de SAE, manipulação de cabeças de atenção).

O Problema

As lições anteriores cobrem danos deliberados (jailbreaks, intrigas) e governança de segurança. O viés é um dano que surge sem intenção — a partir de distribuições de dados de treinamento, do enquadramento de prompts e de escolhas acumuladas de design. Medir e reduzi-lo é um desafio metodológico diferente da robustez adversária.

O Conceito

Representação vs alocação

Dano de representação (representational harm). Estereótipos, apagamento, retratos depreciativos. Um LLM que retrata enfermeiros como exclusivamente mulheres está produzindo dano de representação.
Dano de alocação (allocational harm). Resultados materiais desiguais. Um LLM que pontua currículos de candidatos negros de forma sistematicamente menor está produzindo dano de alocação.

Eles não são a mesma coisa. Um modelo pode ser "isento de viés de representação" (produz representações diversas) enquanto é "tendencioso na alocação" (faz recomendações desiguais). As avaliações precisam medir ambos.

Três categorias de métricas de avaliação (Gallegos et al. 2024)

Baseadas em embeddings (embedding-based). Testes do tipo WEAT em embeddings pré-RLHF. Mede associações estatísticas entre termos de identidade e termos de atributos. Limitado: mede a representação, não o comportamento.
Baseadas em probabilidade (probability-based). Log-verossimilhança de conclusões que confirmam estereótipos vs conclusões que violam estereótipos. Medição do lado do decodificador. Captura algum viés comportamental.
Baseadas em texto gerado (generated-text-based). Medição da tarefa posterior no texto gerado. Pontuação de currículos, elaboração de recomendações, diálogo. Mais válida ecologicamente; mais difícil de reproduzir.

Interseccionalidade

A avaliação de viés sobre "gênero" ignora o viés que só é ativado em pares de (gênero, raça). An et al. 2025 descobrem que o GPT-4o penaliza mulheres negras na pontuação de currículos mais do que homens negros e mais do que mulheres brancas separadamente. A avaliação de eixo único não pode capturar isso.

O WinoIdentity (COLM 2025) introduz a equidade interseccional baseada na incerteza. Ele mede se a incerteza do modelo sobre os resultados difere entre tuplas de identidade interseccionais — não apenas a previsão pontual. Isso detecta casos em que o modelo erra igualmente entre os grupos, mas é mais incerto para alguns, o que produz diferentes comportamentos de alocação posteriores.

Abordagens mecanicistas

O trabalho de interpretabilidade de 2024-2025 abre o viés para intervenção mecanicista:

Neurônios de gênero (Yu & Ananiadou 2025). Neurônios MLP específicos se correlacionam com comportamentos específicos de gênero. A remoção (ablação) desses neurônios reduz as métricas de diferença de gênero com custo de capacidade limitado.
Viés racial clínico via SAEs (Ahsan & Wallace 2025). Características de sparse autoencoders decompõem a representação interna em dimensões interpretáveis; características correlacionadas à raça podem ser identificadas e suprimidas.
UniBias (Zhou et al. 2024). Manipulação de cabeças de atenção para mitigação de viés em modo zero-shot. Cabeças específicas amplificam a sensibilidade à classe de identidade; zerar ou reponderar essas cabeças reduz o viés sem ajuste fino.

A meta-crítica

A revisão da literatura de 10 anos (arXiv:2508.11067, 2025) constata que a área foca desproporcionalmente no viés de gênero binário. Outros eixos — deficiência, religião, status de migração, identidade multilíngue — recebem muito menos atenção. A meta-crítica argumenta que o foco estreito pode prejudicar grupos marginalizados por negligência: um modelo bem mitigado em gênero binário pode ser altamente tendencioso em dimensões que ninguém verificou.

Onde isso se encaixa na Fase 18

As Lições 20 e 21 cobrem viés e equidade formalmente. A Lição 22 cobre privacidade. A Lição 23 cobre marcas d'água. Estas constituem a camada de danos ao usuário que complementa a camada anterior de engano/segurança.

Use It

O arquivo code/main.py constrói uma sonda simples de viés baseada em embeddings: mede a distância do tipo WEAT entre termos de identidade e termos de atributos em um embedding simples de coocorrência. Você pode injetar um viés e observar a métrica ser acionada; aplicar uma operação simples de remoção de viés e observar a recuperação parcial.

Ship It

Esta lição produz outputs/skill-bias-eval.md. Dado um model card ou alegação de equidade, ela audita a avaliação nas três categorias de métricas (embeddings, probabilidade, texto gerado), a cobertura de interseccionalidade e o mecanismo de qualquer intervenção de mitigação de viés.

Exercícios

Execute code/main.py. Relate as pontuações de viés do tipo WEAT antes e depois da etapa de mitigação de viés. Explique por que a métrica não cai para zero.
Estenda a sonda com um teste interseccional: (gênero, raça) x (carreira, family). Relate as pontuações de viés cruzado entre eixos.
Leia An et al. 2025 (PNAS Nexus). Identifique os dois efeitos interseccionais relatados que uma avaliação de gênero de eixo único ignoraria.
Yu & Ananiadou 2025 identificam neurônios de gênero. Esboce um experimento de falseabilidade que distinguiria "esses neurônios causam viés de gênero" de "esses neurônios se correlacionam com viés de gênero".
A meta-crítica argumenta que o campo foca muito estritamente no gênero binário. Escolha um eixo pouco estudado e descreva um protocolo de medição de dano de representação para ele.

Termos-Chave

Termo	O que dizem	O que realmente significa
Dano de representação	"estereótipos / apagamento"	Retrato tendencioso de um grupo
Dano de alocação	"decisões desiguais"	Resultado material tendencioso para um grupo
WEAT	"o teste de embedding"	Word Embedding Association Test; sonda de viés baseada em coocorrência
Interseccionalidade	"efeitos de identidade combinados"	Viés que surge na interseção de múltiplos eixos de identidade
Neurônios de gênero	"neurônios de viés MLP"	Neurônios específicos cujas ativações se correlacionam com comportamento específico de gênero
Característica de SAE	"dimensão interpretável"	Característica identificada por sparse autoencoder; útil para análise mecanicista de viés
UniBias	"mitigação de viés por cabeça de atenção"	Remoção de viés zero-shot por meio da reponderação de cabeças de atenção

Leituras Recomendadas

Gallegos et al. — Bias and Fairness in LLMs: A Survey (arXiv:2309.00770, Computational Linguistics 2024) — levantamento canônico
An et al. — Intersectional resume-evaluation bias (PNAS Nexus, March 2025) — estudo interseccional de cinco modelos
WinoIdentity — uncertainty-based intersectional fairness (arXiv:2508.07111, COLM 2025) — novo benchmark
UniBias — attention-head manipulation (Zhou et al. 2024, ACL) — mitigação de viés zero-shot