Phase 18 - Lesson 28

Ecossistema de Pesquisa em Alinhamento — MATS, Redwood, Apollo, METR

Cinco organizações definem a camada de pesquisa em alinhamento externa aos laboratórios (non-lab) em 2026. MATS (ML Alignment & Theory Scholars): mais de 527 pesquisadores desde o final de 2021, mais de 180 artigos, mais de 10 mil citações, h-index 47; a turma do verão de 2024 foi constituída como uma organização 501(c)(3) com cerca de 90 bolsistas (scholars) e 40 mentores; 80% dos ex-alunos anteriores a 2025 trabalham com segurança/proteção, com mais de 200 deles atuando em instituições como Anthropic, DeepMind, OpenAI, UK AISI, RAND, Redwood, METR e Apollo. Redwood Research: laboratório de alinhamento aplicado fundado por Buck Shlegeris; responsável pela introdução do Controle de IA (AI Control - Lição 10); colabora com o UK AISI em casos de segurança de controle. Apollo Research: realiza avaliações de intriga/conluio (scheming evaluations) pré-implantação para laboratórios de fronteira; autora de In-Context Scheming (Lição 8) e Towards Safety Cases for AI Scheming. METR (Model Evaluation and Threat Research): focada em avaliações de capacidade baseadas em tarefas e estudos de horizonte de tempo para tarefas autônomas; o documento "Common Elements of Frontier AI Safety Policies" compara as políticas de segurança de diferentes laboratórios. Eleos AI Research: avaliações pré-implantação de bem-estar de modelos (model welfare - Lição 19); realizou a avaliação de bem-estar do Claude Opus 4.

Tipo: Learn Linguagens: -- Pré-requisitos: Phase 18 · 01-27 (lições anteriores da Fase 18) Tempo: ~45 minutos

Objetivos de Aprendizado

  • Identificar as cinco organizações do ecossistema de pesquisa de alinhamento externo (non-lab) e suas principais produções.
  • Descrever a escala da MATS (pesquisadores, artigos, h-index) e seu papel como formadora de talentos.
  • Descrever a agenda de Controle de IA da Redwood e sua parceria com o UK AISI.
  • Descrever a metodologia de avaliação baseada em tarefas da METR.

O Problema

Os laboratórios de fronteira (Lição 18) produzem avaliações de segurança internamente e publicam resultados selecionados. O ecossistema fora dos laboratórios é o espaço onde as avaliações são validadas, os novos modos de falha são descobertos pela primeira vez e os talentos são formados. Compreender esse ecossistema ajuda a interpretar quais descobertas de pesquisa são confiáveis e por quem.

O Conceito

MATS (ML Alignment & Theory Scholars)

Iniciado no final de 2021. Programa de mentoria em pesquisa no qual os bolsistas passam de 10 a 12 semanas trabalhando com um pesquisador sênior em um problema específico de alinhamento.

Escala (2026):

  • Mais de 527 pesquisadores desde o início.
  • Mais de 180 artigos publicados.
  • Mais de 10 mil citações.
  • h-index 47.
  • Verão de 2024: 90 bolsistas + 40 mentores; constituído como 501(c)(3).

Resultados profissionais: cerca de 80% dos ex-alunos anteriores a 2025 trabalham na área de segurança/proteção. Mais de 200 na Anthropic, DeepMind, OpenAI, UK AISI, RAND, Redwood, METR e Apollo.

Redwood Research

Laboratório de alinhamento aplicado. Fundado por Buck Shlegeris. Introduziu a agenda de Controle de IA (AI Control - Lição 10). Colabora com o UK AISI em casos de segurança de controle. Presta consultoria à DeepMind e à Anthropic no design de avaliações.

Artigos clássicos: Greenblatt, Shlegeris et al., "AI Control" (arXiv:2312.06942, ICML 2024); Alignment Faking (Greenblatt, Denison, Wright et al., arXiv:2412.14093, em parceria com a Anthropic).

Estilo: modelos de ameaça específicos, adversários no pior cenário e protocolos concretos que podem ser testados sob estresse.

Apollo Research

Avaliações de conspiração/intriga (scheming) pré-implantação para laboratórios de fronteira. Autores de In-Context Scheming (Lição 8, arXiv:2412.04984). Parceira na colaboração de treinamento contra intriga (anti-scheming) de 2025 com a OpenAI. Produz Towards Safety Cases for AI Scheming (2024).

Estilo: avaliações em cenários de agentes onde o engano (deception) pode surgir a partir de conflitos de objetivos no contexto; decomposição em três pilares (desalinhamento, direcionamento a objetivos e percepção situacional).

METR (Model Evaluation and Threat Research)

Avaliações de capacidade baseadas em tarefas. Estudos de horizonte temporal de conclusão de tarefas autônomas. O documento "Common Elements of Frontier AI Safety Policies" (metr.org/common-elements, 2025) compara as políticas de segurança de diferentes laboratórios.

Coautora com a Apollo no esboço do caso de segurança para conspiração de IA (AI Scheming).

Estilo: avaliações de tarefas de longo horizonte, medição empírica de capacidade e síntese de estruturas.

Eleos AI Research

Avaliações pré-implantação de bem-estar de modelos (model welfare). Conduziu a avaliação de bem-estar do Claude Opus 4 documentada na seção 5.3 da ficha de sistema. Fornece a verificação metodológica externa para as alegações relevantes sobre bem-estar da Lição 19.

O fluxo de talentos e pesquisas

A MATS treina pesquisadores. Os graduados vão para a Anthropic, DeepMind, OpenAI (equipes de segurança dos laboratórios) ou para Redwood, Apollo, METR, Eleos (avaliação externa). Os avaliadores externos fazem parcerias com laboratórios e com o UK AISI / CAISI. As publicações alimentam o ecossistema de volta para a MATS para a próxima turma.

Por que esta camada externa é importante

Avaliações feitas por uma única parte são pouco confiáveis: laboratórios avaliando seus próprios modelos enfrentam um conflito de interesses estrutural. Avaliadores externos podem levantar e validar modos de falha que o laboratório pode subnotificar. O artigo Sleeper Agents de 2024 (Lição 7) foi uma parceria entre Anthropic + Redwood; Alignment Faking foi Anthropic + Redwood; In-Context Scheming foi Apollo; e Anti-Scheming foi Apollo + OpenAI. A estrutura multiorganizacional atua como o controle de qualidade.

Onde isso se encaixa na Fase 18

As Lições 7-11 fazem referência ao trabalho da Redwood e da Apollo; a Lição 18 faz referência à comparação de estruturas da METR; a Lição 19 faz referência à Eleos. A Lição 28 é o mapa organizacional explícito do ecossistema no qual o restante da Fase se apoia.

Use It

Sem código. Leia o documento "Common Elements of Frontier AI Safety Policies" da METR como um exemplo de como a síntese externa agrega valor ao trabalho político interno dos laboratórios.

Ship It

Esta lição produz outputs/skill-ecosystem-map.md. Dada uma alegação ou avaliação de alinhamento, ela identifica a organização, o local de publicação e o estilo metodológico, realizando uma verificação cruzada com as organizações de contrapartida conhecidas.

Exercícios

  1. Escolha um artigo das Lições 7 a 15 e identifique as organizações envolvidas. Faça uma verificação cruzada dos autores com os ex-alunos da MATS e com as afiliações atuais no ecossistema.

  2. Leia o documento "Common Elements of Frontier AI Safety Policies" da METR. Identifique as três convergências entre laboratórios que eles enfatizam e as duas maiores divergências.

  3. O resultado de carreira da MATS aponta que cerca de 80% trabalham em segurança/proteção. Argumente se essa pressão de seleção é adaptativa (treina a área) ou tendenciosa (filtra posicionamentos heterodoxos).

  4. A Redwood e a Apollo realizam trabalhos de controle/conspiração (control/scheming), mas com estilos diferentes. Escolha um modo de falha e descreva como cada uma o investigaria.

  5. A Eleos AI é a única organização dedicada puramente ao bem-estar de modelos. Projete uma hipotética segunda organização focada em uma questão diferente relacionada ao bem-estar (liberdade cognitiva, incorporação robótica, etc.) e articule sua metodologia.

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
MATS "O programa de mentoria" ML Alignment & Theory Scholars; mais de 527 pesquisadores desde 2021
Redwood Research "O laboratório de controle" Alinhamento aplicado; autores de AI Control; parceiro do UK AISI
Apollo Research "As evals de conluio" Avaliações de conluio/intriga (scheming) pré-implantação para laboratórios de fronteira
METR "As evals de tarefas autônomas" Avaliações de capacidade baseadas em tarefas; síntese de estruturas
Eleos AI "O laboratório de bem-estar" Avaliações pré-implantação de bem-estar de modelos
Fluxo de talentos "MATS -> laboratórios" Graduados da MATS migram para Anthropic, DM, OpenAI, Redwood, Apollo, METR
Avaliação externa "Verificação externa ao lab" Avaliação não realizada pelo produtor do modelo; adiciona credibilidade

Leitura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).