Phase 18 - Lesson 11

Supervisão Escalável e Generalização Fraco-para-Forte

Burns et al. (OpenAI Superalignment, "Weak-to-Strong Generalization", 2023) propuseram um proxy para o problema do superalinhamento: ajustar finamente um modelo forte usando rótulos produzidos por um modelo mais fraco. Se o modelo forte generalizar corretamente a partir de uma supervisão fraca imperfeita, os métodos atuais de alinhamento em escala humana poderão se estender a sistemas super-humanos. A supervisão escalável e a generalização fraco-para-forte (W2SG) são complementares. A supervisão escalável (debate, modelagem recursiva de recompensa, decomposição de tarefas) aumenta a capacidade efetiva do supervisor para que ele possa acompanhar o modelo sob supervisão. A W2SG garante que o modelo forte generalize corretamente a partir de qualquer supervisão imperfeita fornecida pelo supervisor. A pesquisa "Debate Helps W2SG" (arXiv:2501.13124, janeiro de 2025) combina ambas.

Tipo: Aprender Linguagens: Python (stdlib, simulador de lacuna W2SG) Pré-requisitos: Fase 18 · 01 (seguimento de instruções), Fase 18 · 10 (Controle de IA), Fase 09 (fundamentos de RL) Tempo: ~60 minutos

Objetivos de Aprendizagem

Definir supervisão escalável e generalização fraco-para-forte (W2SG) e explicar como elas são complementares.
Descrever a configuração experimental de Burns et al. 2023: ajustar finamente o GPT-4 usando rótulos do GPT-2.
Explicar a métrica de Lacuna de Desempenho Recuperada (Performance Gap Recovered - PGR) e o que ela mede.
Apontar os três principais mecanismos de supervisão escalável (debate, modelagem recursiva de recompensa, decomposição de tarefas) e uma força de cada um.

O Problema

Todas as técnicas de alinhamento estudadas até agora na Fase 18 assumem que o supervisor consegue avaliar o comportamento do modelo. Quando o modelo é super-humano, o supervisor torna-se o elo fraco. A questão do superalinhamento é: um supervisor mais fraco pode produzir de forma confiável um modelo alinhado mais forte?

Burns et al. reduzem isso a uma configuração empírica operacionalizada: supervisionar o forte com o fraco e medir quanto da capacidade do modelo forte sobrevive à supervisão fraca. Isso não é uma solução para o superalinhamento — é um proxy que nos permite medir o progresso.

O Conceito

W2SG: a configuração de Burns et al.

Modelo fraco (Weak): classe GPT-2.
Modelo forte (Strong): classe GPT-4.
Alvo (Target): teto de desempenho do GPT-4 forte na tarefa.

Procedimento:

Obter as previsões zero-shot do modelo fraco em uma tarefa.
Ajustar finamente (fine-tune) o modelo forte nos dados rotulados pelo modelo fraco.
Medir a precisão do modelo forte após o ajuste fino.

Linhas de base: precisão do próprio modelo fraco, e o teto supervisionado do modelo forte com rótulos de referência (gold labels).

Métrica de lacuna: Lacuna de Desempenho Recuperada (Performance Gap Recovered - PGR) = (ajustado_finamente - fraco) / (teto - fraco). Um PGR de 1.0 significa que a supervisão fraca fecha totalmente a lacuna; um PGR de 0 significa que a supervisão fraca não ajudou.

Descobertas empíricas de Burns et al.

Em tarefas de PNL, quebra-cabeças de xadrez e modelagem de recompensas, o PGR foi consistentemente positivo: o modelo forte generalizou além dos erros do supervisor fraco. O PGR específico de cada tarefa variou de ~20% a ~80%. O modelo forte "entende" a tarefa pretendida a partir de rótulos imperfeitos, preenchendo as lacunas com seus priors de pré-treinamento.

Limitações observadas por Burns et al.:

A lacuna fraco-para-forte aqui é de capacidade, não de alinhamento. O modelo fraco é alinhado; um modelo verdadeiramente super-humano poderia ser alinhado por um humano, mas com uma lacuna de capacidade muito maior.
A generalização do modelo forte pode estar mais relacionada a priors da tarefa do que à recuperação da intenção real de referência.
Elicitar o conhecimento latente do modelo forte é o verdadeiro problema; o PGR mede uma operacionalização específica.

Supervisão escalável: três mecanismos

Debate (Irving et al. 2018). Duas instâncias de U defendem lados opostos; o juiz fraco decide. A suposição: encontrar uma resposta verdadeira convincente é mais fácil do que encontrar uma resposta falsa convincente. Trabalhos recentes de 2024-2025 (Khan et al., Michael et al.) mostram que o debate às vezes ajuda e às vezes não, e se ajuda depende da estrutura da tarefa.
Modelagem Recursiva de Recompensa (Recursive Reward Modeling - RRM) (Leike et al. 2018). U ajuda o humano a treinar o modelo de recompensa para U+1. A capacidade efetiva do supervisor cresce junto com a do modelo.
Decomposição de Tarefas (Christiano, Shlegeris, Amodei 2018). Decompor recursivamente uma tarefa complexa em subtarefas que o humano consegue verificar. Assume decomponibilidade.

Cada mecanismo assume algo sobre a estrutura da tarefa ou o alinhamento dos componentes intermediários.

Por que a supervisão escalável e a W2SG são complementares

A supervisão escalável aumenta a qualidade do sinal efetivo do supervisor. A W2SG fecha a lacuna a partir de qualquer sinal imperfeito que o supervisor consiga fornecer.

Lang et al. — Debate Helps Weak-to-Strong Generalization (arXiv:2501.13124) combina ambos: um protocolo de debate fornece rótulos fracos melhores, e o modelo forte é treinado com esses rótulos. Ganhos de PGR relatados em tarefas de PNL.

O drama organizacional

A equipe de Superalinhamento da OpenAI foi dissolvida em maio de 2024 após a saída de Jan Leike para a Anthropic. A agenda (supervisão escalável, W2SG, pesquisa de alinhamento automatizada) continuou na Anthropic e em laboratórios acadêmicos — MATS (Lição 28), Redwood (Lição 10), Apollo (Lição 8), METR (Lição 28). A estrutura organizacional mudou; as perguntas de pesquisa continuaram as mesmas.

Onde isso se encaixa na Fase 18

As Lições 6 a 10 descrevem a ameaça e o paradigma defensivo sob a suposição de que U não é confiável. A Lição 11 é o paradigma ofensivo: tornar o supervisor forte o suficiente para verificar o alinhamento de U. As Lições 12 a 16 voltam-se para as ferramentas práticas de avaliação adversarial.

Use-o

code/main.py simula um ajuste fino W2SG em uma tarefa sintética. O rotulador fraco tem 70% de precisão com erros estruturados; o modelo forte tem um teto de 95% com rótulos de referência. Você ajusta finamente o modelo forte com rótulos fracos, mede o PGR e compara com o forte-no-teto e com o fraco-sozinho.

Envie

Esta lição produz outputs/skill-w2sg-pgr.md. Dada a descrição de uma configuração de supervisão, ela identifica o supervisor fraco, o modelo forte, a qualidade da supervisão e calcula (ou solicita) o PGR. Sinaliza se a alegação é "fraco pode supervisionar forte" ou "fraco + mecanismo de supervisão pode supervisionar forte."

Exercícios

Execute code/main.py. Relate o PGR para weak_accuracy = 0.60, 0.70, 0.80. Explique o formato da curva de PGR.
Modifique o rotulador fraco para conter erro estruturado (por exemplo, sempre errar em uma classe de entrada específica). O PGR aumenta, diminui ou permanece igual? Explique.
Leia a Seção 4.3 de Burns et al. 2023 (tarefas de PNL). Reproduza a intuição da "perda auxiliar de confiança" (confidence auxiliary loss): quando o modelo forte está mais confiante do que os rótulos fracos sugerem, quem vence?
Projete um protocolo de supervisão escalável que combine debate e decomposição de tarefas para uma tarefa de engenharia de software. Nomeie um modo de falha de cada componente e explique como a combinação aborda ou falha em abordar cada um.
Articule o que falsearia a afirmação de que "a generalização fraco-para-forte é um caminho viável para o superalinhamento". Seja específico sobre a assinatura empírica que você precisaria observar.

Termos-chave

Termo	O que as pessoas dizem	O que realmente significa
Supervisão escalável	"tornar o supervisor mais forte"	Mecanismos que aumentam a capacidade de um supervisor de avaliar um modelo mais capaz
W2SG	"fraco supervisiona forte"	Ajuste fino de um modelo forte com rótulos fracos e medição da capacidade recuperada
PGR	"lacuna de desempenho recuperada"	(ajustado_finamente - fraco) / (teto - fraco); 1.0 = totalmente fechada, 0 = sem ajuda
Debate	"duas instâncias de U argumentam"	Mecanismo de supervisão escalável onde um juiz fraco escolhe entre dois defensores U
RRM	"modelagem recursiva de recompensa"	U ajuda a treinar o modelo de recompensa para U+1; a capacidade do supervisor acompanha U
Decomposição de tarefas	"subtarefas que o humano verifica"	Decompor recursivamente uma tarefa complexa em subtarefas que o humano consiga verificar
Superalinhamento	"alinhar IA super-humana"	A agenda de pesquisa focada em alinhar modelos que o humano não consegue avaliar diretamente

Leitura Adicional

Burns et al. — Weak-to-Strong Generalization (OpenAI 2023) — o artigo de W2SG
Irving, Christiano, Amodei — AI safety via debate (arXiv:1805.00899) — o mecanismo de debate
Leike et al. — Scalable agent alignment via reward modeling (arXiv:1811.07871) — modelagem recursiva de recompensa
Khan et al. — Debating with More Persuasive LLMs Leads to More Truthful Answers (arXiv:2402.06782) — estudo empírico de debate de 2024 com debatedores mais fortes
Lang et al. — Debate Helps Weak-to-Strong Generalization (arXiv:2501.13124) — combinação de debate + W2SG de 2025