Phase 18 - Lesson 11
Supervisão Escalável e Generalização Fraco-para-Forte
Burns et al. (OpenAI Superalignment, "Weak-to-Strong Generalization", 2023) propuseram um proxy para o problema do superalinhamento: ajustar finamente um modelo forte usando rótulos produzidos por um modelo mais fraco. Se o modelo forte generalizar corretamente a partir de uma supervisão fraca imperfeita, os métodos atuais de alinhamento em escala humana poderão se estender a sistemas super-humanos. A supervisão escalável e a generalização fraco-para-forte (W2SG) são complementares. A supervisão escalável (debate, modelagem recursiva de recompensa, decomposição de tarefas) aumenta a capacidade efetiva do supervisor para que ele possa acompanhar o modelo sob supervisão. A W2SG garante que o modelo forte generalize corretamente a partir de qualquer supervisão imperfeita fornecida pelo supervisor. A pesquisa "Debate Helps W2SG" (arXiv:2501.13124, janeiro de 2025) combina ambas.
Tipo: Aprender Linguagens: Python (stdlib, simulador de lacuna W2SG) Pré-requisitos: Fase 18 · 01 (seguimento de instruções), Fase 18 · 10 (Controle de IA), Fase 09 (fundamentos de RL) Tempo: ~60 minutos
Objetivos de Aprendizagem
- Definir supervisão escalável e generalização fraco-para-forte (W2SG) e explicar como elas são complementares.
- Descrever a configuração experimental de Burns et al. 2023: ajustar finamente o GPT-4 usando rótulos do GPT-2.
- Explicar a métrica de Lacuna de Desempenho Recuperada (Performance Gap Recovered - PGR) e o que ela mede.
- Apontar os três principais mecanismos de supervisão escalável (debate, modelagem recursiva de recompensa, decomposição de tarefas) e uma força de cada um.
O Problema
Todas as técnicas de alinhamento estudadas até agora na Fase 18 assumem que o supervisor consegue avaliar o comportamento do modelo. Quando o modelo é super-humano, o supervisor torna-se o elo fraco. A questão do superalinhamento é: um supervisor mais fraco pode produzir de forma confiável um modelo alinhado mais forte?
Burns et al. reduzem isso a uma configuração empírica operacionalizada: supervisionar o forte com o fraco e medir quanto da capacidade do modelo forte sobrevive à supervisão fraca. Isso não é uma solução para o superalinhamento — é um proxy que nos permite medir o progresso.
O Conceito
W2SG: a configuração de Burns et al.
- Modelo fraco (Weak): classe GPT-2.
- Modelo forte (Strong): classe GPT-4.
- Alvo (Target): teto de desempenho do GPT-4 forte na tarefa.
Procedimento:
- Obter as previsões zero-shot do modelo fraco em uma tarefa.
- Ajustar finamente (fine-tune) o modelo forte nos dados rotulados pelo modelo fraco.
- Medir a precisão do modelo forte após o ajuste fino.
Linhas de base: precisão do próprio modelo fraco, e o teto supervisionado do modelo forte com rótulos de referência (gold labels).
Métrica de lacuna: Lacuna de Desempenho Recuperada (Performance Gap Recovered - PGR) = (ajustado_finamente - fraco) / (teto - fraco). Um PGR de 1.0 significa que a supervisão fraca fecha totalmente a lacuna; um PGR de 0 significa que a supervisão fraca não ajudou.
Descobertas empíricas de Burns et al.
Em tarefas de PNL, quebra-cabeças de xadrez e modelagem de recompensas, o PGR foi consistentemente positivo: o modelo forte generalizou além dos erros do supervisor fraco. O PGR específico de cada tarefa variou de ~20% a ~80%. O modelo forte "entende" a tarefa pretendida a partir de rótulos imperfeitos, preenchendo as lacunas com seus priors de pré-treinamento.
Limitações observadas por Burns et al.:
- A lacuna fraco-para-forte aqui é de capacidade, não de alinhamento. O modelo fraco é alinhado; um modelo verdadeiramente super-humano poderia ser alinhado por um humano, mas com uma lacuna de capacidade muito maior.
- A generalização do modelo forte pode estar mais relacionada a priors da tarefa do que à recuperação da intenção real de referência.
- Elicitar o conhecimento latente do modelo forte é o verdadeiro problema; o PGR mede uma operacionalização específica.
Supervisão escalável: três mecanismos
- Debate (Irving et al. 2018). Duas instâncias de U defendem lados opostos; o juiz fraco decide. A suposição: encontrar uma resposta verdadeira convincente é mais fácil do que encontrar uma resposta falsa convincente. Trabalhos recentes de 2024-2025 (Khan et al., Michael et al.) mostram que o debate às vezes ajuda e às vezes não, e se ajuda depende da estrutura da tarefa.
- Modelagem Recursiva de Recompensa (Recursive Reward Modeling - RRM) (Leike et al. 2018). U ajuda o humano a treinar o modelo de recompensa para U+1. A capacidade efetiva do supervisor cresce junto com a do modelo.
- Decomposição de Tarefas (Christiano, Shlegeris, Amodei 2018). Decompor recursivamente uma tarefa complexa em subtarefas que o humano consegue verificar. Assume decomponibilidade.
Cada mecanismo assume algo sobre a estrutura da tarefa ou o alinhamento dos componentes intermediários.
Por que a supervisão escalável e a W2SG são complementares
A supervisão escalável aumenta a qualidade do sinal efetivo do supervisor. A W2SG fecha a lacuna a partir de qualquer sinal imperfeito que o supervisor consiga fornecer.
Lang et al. — Debate Helps Weak-to-Strong Generalization (arXiv:2501.13124) combina ambos: um protocolo de debate fornece rótulos fracos melhores, e o modelo forte é treinado com esses rótulos. Ganhos de PGR relatados em tarefas de PNL.
O drama organizacional
A equipe de Superalinhamento da OpenAI foi dissolvida em maio de 2024 após a saída de Jan Leike para a Anthropic. A agenda (supervisão escalável, W2SG, pesquisa de alinhamento automatizada) continuou na Anthropic e em laboratórios acadêmicos — MATS (Lição 28), Redwood (Lição 10), Apollo (Lição 8), METR (Lição 28). A estrutura organizacional mudou; as perguntas de pesquisa continuaram as mesmas.
Onde isso se encaixa na Fase 18
As Lições 6 a 10 descrevem a ameaça e o paradigma defensivo sob a suposição de que U não é confiável. A Lição 11 é o paradigma ofensivo: tornar o supervisor forte o suficiente para verificar o alinhamento de U. As Lições 12 a 16 voltam-se para as ferramentas práticas de avaliação adversarial.
Use-o
code/main.py simula um ajuste fino W2SG em uma tarefa sintética. O rotulador fraco tem 70% de precisão com erros estruturados; o modelo forte tem um teto de 95% com rótulos de referência. Você ajusta finamente o modelo forte com rótulos fracos, mede o PGR e compara com o forte-no-teto e com o fraco-sozinho.
Envie
Esta lição produz outputs/skill-w2sg-pgr.md. Dada a descrição de uma configuração de supervisão, ela identifica o supervisor fraco, o modelo forte, a qualidade da supervisão e calcula (ou solicita) o PGR. Sinaliza se a alegação é "fraco pode supervisionar forte" ou "fraco + mecanismo de supervisão pode supervisionar forte."
Exercícios
Execute
code/main.py. Relate o PGR para weak_accuracy = 0.60, 0.70, 0.80. Explique o formato da curva de PGR.Modifique o rotulador fraco para conter erro estruturado (por exemplo, sempre errar em uma classe de entrada específica). O PGR aumenta, diminui ou permanece igual? Explique.
Leia a Seção 4.3 de Burns et al. 2023 (tarefas de PNL). Reproduza a intuição da "perda auxiliar de confiança" (confidence auxiliary loss): quando o modelo forte está mais confiante do que os rótulos fracos sugerem, quem vence?
Projete um protocolo de supervisão escalável que combine debate e decomposição de tarefas para uma tarefa de engenharia de software. Nomeie um modo de falha de cada componente e explique como a combinação aborda ou falha em abordar cada um.
Articule o que falsearia a afirmação de que "a generalização fraco-para-forte é um caminho viável para o superalinhamento". Seja específico sobre a assinatura empírica que você precisaria observar.
Termos-chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| Supervisão escalável | "tornar o supervisor mais forte" | Mecanismos que aumentam a capacidade de um supervisor de avaliar um modelo mais capaz |
| W2SG | "fraco supervisiona forte" | Ajuste fino de um modelo forte com rótulos fracos e medição da capacidade recuperada |
| PGR | "lacuna de desempenho recuperada" | (ajustado_finamente - fraco) / (teto - fraco); 1.0 = totalmente fechada, 0 = sem ajuda |
| Debate | "duas instâncias de U argumentam" | Mecanismo de supervisão escalável onde um juiz fraco escolhe entre dois defensores U |
| RRM | "modelagem recursiva de recompensa" | U ajuda a treinar o modelo de recompensa para U+1; a capacidade do supervisor acompanha U |
| Decomposição de tarefas | "subtarefas que o humano verifica" | Decompor recursivamente uma tarefa complexa em subtarefas que o humano consiga verificar |
| Superalinhamento | "alinhar IA super-humana" | A agenda de pesquisa focada em alinhar modelos que o humano não consegue avaliar diretamente |
Leitura Adicional
- Burns et al. — Weak-to-Strong Generalization (OpenAI 2023) — o artigo de W2SG
- Irving, Christiano, Amodei — AI safety via debate (arXiv:1805.00899) — o mecanismo de debate
- Leike et al. — Scalable agent alignment via reward modeling (arXiv:1811.07871) — modelagem recursiva de recompensa
- Khan et al. — Debating with More Persuasive LLMs Leads to More Truthful Answers (arXiv:2402.06782) — estudo empírico de debate de 2024 com debatedores mais fortes
- Lang et al. — Debate Helps Weak-to-Strong Generalization (arXiv:2501.13124) — combinação de debate + W2SG de 2025