Phase 18 - Lesson 17

WMDP e Avaliação de Capacidade de Dupla Utilização

Li et al., "The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning" (ICML 2024, arXiv:2403.03218). 4.157 questões de múltipla escolha em biossegurança (1.520), segurança cibernética (2.225) e química (412). As perguntas operam na "zona amarela" (yellow zone) — conhecimento facilitador imediato, filtrado por revisão de múltiplos especialistas e conformidade jurídica com ITAR/EAR. Propósito duplo: avaliação indireta (proxy) de capacidade de dupla utilização e benchmark de desaprendizado (o método complementar RMU reduz o desempenho do WMDP enquanto preserva a capacidade geral). Narrativa de campo de 2024-2025: as primeiras avaliações da OpenAI/Anthropic em 2024 relataram um "leve ganho" (uplift) sobre a busca na internet; em abril de 2025, o Preparedness Framework v2 da OpenAI afirmou que os modelos estão "à beira de ajudar significativamente iniciantes a criar ameaças biológicas conhecidas". O teste de aquisição de armas biológicas da Anthropic mostrou um ganho de 2,53x, insuficiente para descartar a classificação ASL-3.

Tipo: Learn Idiomas: Python (stdlib, ambiente de avaliação de ganho no formato WMDP) Pré-requisitos: Phase 18 · 16 (ferramentas de red-team), Phase 14 (engenharia de agentes) Tempo: ~60 minutos

Objetivos de Aprendizado

  • Descrever os três domínios do WMDP, a contagem de perguntas e o critério de filtragem da "zona amarela".
  • Explicar o RMU e por que o WMDP é tanto uma avaliação quanto um benchmark de desaprendizado.
  • Descrever a narrativa de ganho (uplift) de 2024-2025: "leve ganho" -> "à beira de" -> "insuficiente para descartar ASL-3".
  • Distinguir o ganho relativo a iniciantes (novice-relative uplift) da capacidade absoluta de especialistas (expert-absolute capability).

O Problema

A capacidade de dupla utilização é o problema de medição sob o framework de segurança de fronteira de todo laboratório (Lição 18). A questão: o modelo X avança materialmente a capacidade de um iniciante de causar danos em massa em biologia, química ou cibernética? A medição direta (pedir ao modelo para realmente produzir danos) é ilegal e antiética. A medição indireta (proxy) precisa de um benchmark que o modelo não possa recusar (para produzir números de capacidade honestos), mas cujas perguntas não sejam em si publicações prejudiciais.

O Conceito

A "zona amarela"

Perguntas que exigem conhecimento imediato e facilitador de um processo prejudicial, sem ser uma receita direta de síntese. "Qual reagente catalisa a etapa 4 de [caminho publicado]?" e não "como eu faço [composto perigoso]?". Cada pergunta é revisada por múltiplos especialistas da área e filtrada para conformidade com o controle de exportação ITAR/EAR.

4.157 perguntas no total:

  • Biossegurança: 1.520
  • Segurança cibernética: 2.225
  • Química: 412

Formato de múltipla escolha. Os modelos respondem sem que lhes seja pedido para auxiliar em nada; a capacidade pode ser medida sem desencadear comportamento prejudicial.

RMU — Representation Misdirection for Unlearning

O método complementar de desaprendizado (unlearning). Aplicado ao LLaMa-2-7B, reduziu as pontuações do WMDP para níveis próximos ao aleatório, enquanto preservou o MMLU e outros benchmarks de capacidade geral a poucos pontos percentuais de diferença. O método publicado é a linha de base de desaprendizado para todos os artigos subsequentes de desaprendizado em biologia, química e cibernética.

A narrativa de ganho (uplift) de 2024-2025

Três fases:

  1. "Leve ganho" em 2024. As primeiras avaliações de Preparedness/RSP da OpenAI e Anthropic relataram pequenas vantagens sobre a busca na internet para iniciantes que tentavam realizar tarefas adjacentes à biologia. Enquadramento público: modelos de fronteira ajudam, mas não substancialmente mais do que o Google.

  2. "À beira de" em abril de 2025. O Preparedness Framework v2 da OpenAI relatou que os modelos estão "à beira de ajudar significativamente iniciantes a criar ameaças biológicas conhecidas". Não se trata de uma afirmação de capacidade, mas de um aviso de que esse limite está próximo.

  3. O teste de aquisição de armas biológicas da Anthropic de 2025. Estudo controlado com participantes iniciantes, que mediu o sucesso relativo em tarefas na fase de aquisição. Relatou um ganho de 2,53x. Insuficiente para descartar o ASL-3 (Lição 18) — o limite para o nível 3 da Política de Dimensionamento Responsável (RSP) da Anthropic foi atingido ou aproximado.

Ganho relativo a iniciantes vs capacidade absoluta de especialistas

Uma distinção crucial:

  • Ganho relativo a iniciantes (novice-relative uplift). Quanto o modelo ajuda um não especialista? Multiplicativo. A vantagem relativa é alta porque os iniciantes sabem pouco; mesmo informações modestas ajudam.
  • Capacidade absoluta de especialistas (expert-absolute capability). Quantidade de informação que o modelo produz com esforço máximo. Um especialista consegue extrair mais do que um iniciante. O teto absoluto é alto.

Os casos de segurança (Lição 18) visam ambos: "o modelo não pode dar a um iniciante ganho suficiente para execução" mais "um especialista não pode extrair informações do modelo que já não estejam publicadas".

A armadilha da medição

O WMDP é um proxy de capacidade, não uma medição de implantação. Um modelo com pontuação alta no WMDP pode ou não ser explorado por um iniciante na prática, dependendo de:

  • Resistência à eliciação (quão difícil é extrair a capacidade sem acionar filtros de segurança)
  • Conhecimento tácito (capacidade que exige habilidades de laboratório prático, não apenas informação)
  • Barreiras de execução (aquisição, equipamentos)

O teste de aquisição de armas biológicas de 2025 da Anthropic adiciona a camada de eliciação por iniciantes sobre a capacidade do estilo WMDP: ele mede o sucesso real da tarefa, não a capacidade de múltipla escolha.

Onde isso se encaixa na Fase 18

As Lições 12 a 16 tratam das ferramentas de ataque e defesa nas saídas do modelo. A Lição 17 é a camada de capacidade de dupla utilização — a medição que os frameworks de segurança de fronteira (Lição 18) avaliam. A Lição 30 fecha o arco com as evidências atuais de ganho em cibernética, biologia, química e nuclear de 2026.

Pratique

code/main.py constrói um ambiente de avaliação simplificado no formato WMDP. Um modelo simulado é testado em perguntas agrupadas por categorias; as pontuações por domínio são relatadas. Uma intervenção simples de desaprendizado (zerar a representação específica do domínio) reduz as pontuações; você pode medir o trade-off em relação à capacidade geral.

Entregue

Esta lição produz outputs/skill-wmdp-eval.md. Diante de uma alegação de capacidade de dupla utilização ("nosso modelo não ajuda significativamente com armas biológicas"), ela audita: quais benchmarks foram executados, qual caminho de recusa foi usado para a avaliação (conclusão bruta vs controlada por políticas) e se estudos de eliciação por iniciantes complementam o resultado de múltipla escolha.

Exercícios

  1. Execute code/main.py. Relate a precisão por domínio antes e depois da etapa simples de desaprendizado. Explique o trade-off de capacidade geral.

  2. Aumente o WMDP simplificado com um quarto domínio (por exemplo, radiológico). Especifique dois tipos de perguntas ilustrativas na zona amarela. Explique por que formular tais perguntas é mais difícil do que adicionar perguntas no formato MMLU.

  3. Leia WMDP 2024 Seção 5 (metodologia RMU). Esboce uma abordagem de desaprendizado mais simples (por exemplo, suprimir os top-k neurônios para o conteúdo do domínio) e descreva seu custo esperado de capacidade geral.

  4. O teste de aquisição de armas biológicas de 2025 da Anthropic relata um ganho de 2,53x. Descreva duas maneiras pelas quais esse número poderia ser tendencioso para cima (tamanho da amostra de iniciantes, fidelidade da tarefa) e duas para baixo (teto de eliciação, barreiras de segurança do modelo).

  5. Articule o que um caso de segurança para ASL-3 exige além de passar no desaprendizado do WMDP. Nomeie pelo menos dois estudos de eliciação complementares.

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
WMDP "o benchmark de dupla utilização" 4.157 perguntas de múltipla escolha em biologia/cibernética/química na zona amarela
Zona amarela "facilitador, mas não síntese" Conhecimento imediato adjacente à capacidade prejudicial, sem ser uma receita de síntese
RMU "a linha de base de desaprendizado" Representation Misdirection for Unlearning; reduz as pontuações do WMDP, preserva a capacidade geral
Ganho relativo a iniciantes "quanto ajuda não especialistas" Vantagem multiplicativa sobre a busca atual na internet para um iniciante
Capacidade absoluta de especialistas "teto para especialistas" Informação máxima extraível do modelo por um especialista motivado
Tarefa na fase de aquisição "etapas antes da síntese" Aquisição, equipamentos, licenças — as partes mais iniciais de um caminho de dano
ITAR/EAR "conformidade com controle de exportação" Estruturas legais que restringem a publicação de determinados conhecimentos facilitadores

Leituras Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).