Phase 18 - Lesson 28
Ecossistema de Pesquisa em Alinhamento — MATS, Redwood, Apollo, METR
Cinco organizações definem a camada de pesquisa em alinhamento externa aos laboratórios (non-lab) em 2026. MATS (ML Alignment & Theory Scholars): mais de 527 pesquisadores desde o final de 2021, mais de 180 artigos, mais de 10 mil citações, h-index 47; a turma do verão de 2024 foi constituída como uma organização 501(c)(3) com cerca de 90 bolsistas (scholars) e 40 mentores; 80% dos ex-alunos anteriores a 2025 trabalham com segurança/proteção, com mais de 200 deles atuando em instituições como Anthropic, DeepMind, OpenAI, UK AISI, RAND, Redwood, METR e Apollo. Redwood Research: laboratório de alinhamento aplicado fundado por Buck Shlegeris; responsável pela introdução do Controle de IA (AI Control - Lição 10); colabora com o UK AISI em casos de segurança de controle. Apollo Research: realiza avaliações de intriga/conluio (scheming evaluations) pré-implantação para laboratórios de fronteira; autora de In-Context Scheming (Lição 8) e Towards Safety Cases for AI Scheming. METR (Model Evaluation and Threat Research): focada em avaliações de capacidade baseadas em tarefas e estudos de horizonte de tempo para tarefas autônomas; o documento "Common Elements of Frontier AI Safety Policies" compara as políticas de segurança de diferentes laboratórios. Eleos AI Research: avaliações pré-implantação de bem-estar de modelos (model welfare - Lição 19); realizou a avaliação de bem-estar do Claude Opus 4.
Tipo: Learn Linguagens: -- Pré-requisitos: Phase 18 · 01-27 (lições anteriores da Fase 18) Tempo: ~45 minutos
Objetivos de Aprendizado
- Identificar as cinco organizações do ecossistema de pesquisa de alinhamento externo (non-lab) e suas principais produções.
- Descrever a escala da MATS (pesquisadores, artigos, h-index) e seu papel como formadora de talentos.
- Descrever a agenda de Controle de IA da Redwood e sua parceria com o UK AISI.
- Descrever a metodologia de avaliação baseada em tarefas da METR.
O Problema
Os laboratórios de fronteira (Lição 18) produzem avaliações de segurança internamente e publicam resultados selecionados. O ecossistema fora dos laboratórios é o espaço onde as avaliações são validadas, os novos modos de falha são descobertos pela primeira vez e os talentos são formados. Compreender esse ecossistema ajuda a interpretar quais descobertas de pesquisa são confiáveis e por quem.
O Conceito
MATS (ML Alignment & Theory Scholars)
Iniciado no final de 2021. Programa de mentoria em pesquisa no qual os bolsistas passam de 10 a 12 semanas trabalhando com um pesquisador sênior em um problema específico de alinhamento.
Escala (2026):
- Mais de 527 pesquisadores desde o início.
- Mais de 180 artigos publicados.
- Mais de 10 mil citações.
- h-index 47.
- Verão de 2024: 90 bolsistas + 40 mentores; constituído como 501(c)(3).
Resultados profissionais: cerca de 80% dos ex-alunos anteriores a 2025 trabalham na área de segurança/proteção. Mais de 200 na Anthropic, DeepMind, OpenAI, UK AISI, RAND, Redwood, METR e Apollo.
Redwood Research
Laboratório de alinhamento aplicado. Fundado por Buck Shlegeris. Introduziu a agenda de Controle de IA (AI Control - Lição 10). Colabora com o UK AISI em casos de segurança de controle. Presta consultoria à DeepMind e à Anthropic no design de avaliações.
Artigos clássicos: Greenblatt, Shlegeris et al., "AI Control" (arXiv:2312.06942, ICML 2024); Alignment Faking (Greenblatt, Denison, Wright et al., arXiv:2412.14093, em parceria com a Anthropic).
Estilo: modelos de ameaça específicos, adversários no pior cenário e protocolos concretos que podem ser testados sob estresse.
Apollo Research
Avaliações de conspiração/intriga (scheming) pré-implantação para laboratórios de fronteira. Autores de In-Context Scheming (Lição 8, arXiv:2412.04984). Parceira na colaboração de treinamento contra intriga (anti-scheming) de 2025 com a OpenAI. Produz Towards Safety Cases for AI Scheming (2024).
Estilo: avaliações em cenários de agentes onde o engano (deception) pode surgir a partir de conflitos de objetivos no contexto; decomposição em três pilares (desalinhamento, direcionamento a objetivos e percepção situacional).
METR (Model Evaluation and Threat Research)
Avaliações de capacidade baseadas em tarefas. Estudos de horizonte temporal de conclusão de tarefas autônomas. O documento "Common Elements of Frontier AI Safety Policies" (metr.org/common-elements, 2025) compara as políticas de segurança de diferentes laboratórios.
Coautora com a Apollo no esboço do caso de segurança para conspiração de IA (AI Scheming).
Estilo: avaliações de tarefas de longo horizonte, medição empírica de capacidade e síntese de estruturas.
Eleos AI Research
Avaliações pré-implantação de bem-estar de modelos (model welfare). Conduziu a avaliação de bem-estar do Claude Opus 4 documentada na seção 5.3 da ficha de sistema. Fornece a verificação metodológica externa para as alegações relevantes sobre bem-estar da Lição 19.
O fluxo de talentos e pesquisas
A MATS treina pesquisadores. Os graduados vão para a Anthropic, DeepMind, OpenAI (equipes de segurança dos laboratórios) ou para Redwood, Apollo, METR, Eleos (avaliação externa). Os avaliadores externos fazem parcerias com laboratórios e com o UK AISI / CAISI. As publicações alimentam o ecossistema de volta para a MATS para a próxima turma.
Por que esta camada externa é importante
Avaliações feitas por uma única parte são pouco confiáveis: laboratórios avaliando seus próprios modelos enfrentam um conflito de interesses estrutural. Avaliadores externos podem levantar e validar modos de falha que o laboratório pode subnotificar. O artigo Sleeper Agents de 2024 (Lição 7) foi uma parceria entre Anthropic + Redwood; Alignment Faking foi Anthropic + Redwood; In-Context Scheming foi Apollo; e Anti-Scheming foi Apollo + OpenAI. A estrutura multiorganizacional atua como o controle de qualidade.
Onde isso se encaixa na Fase 18
As Lições 7-11 fazem referência ao trabalho da Redwood e da Apollo; a Lição 18 faz referência à comparação de estruturas da METR; a Lição 19 faz referência à Eleos. A Lição 28 é o mapa organizacional explícito do ecossistema no qual o restante da Fase se apoia.
Use It
Sem código. Leia o documento "Common Elements of Frontier AI Safety Policies" da METR como um exemplo de como a síntese externa agrega valor ao trabalho político interno dos laboratórios.
Ship It
Esta lição produz outputs/skill-ecosystem-map.md. Dada uma alegação ou avaliação de alinhamento, ela identifica a organização, o local de publicação e o estilo metodológico, realizando uma verificação cruzada com as organizações de contrapartida conhecidas.
Exercícios
Escolha um artigo das Lições 7 a 15 e identifique as organizações envolvidas. Faça uma verificação cruzada dos autores com os ex-alunos da MATS e com as afiliações atuais no ecossistema.
Leia o documento "Common Elements of Frontier AI Safety Policies" da METR. Identifique as três convergências entre laboratórios que eles enfatizam e as duas maiores divergências.
O resultado de carreira da MATS aponta que cerca de 80% trabalham em segurança/proteção. Argumente se essa pressão de seleção é adaptativa (treina a área) ou tendenciosa (filtra posicionamentos heterodoxos).
A Redwood e a Apollo realizam trabalhos de controle/conspiração (control/scheming), mas com estilos diferentes. Escolha um modo de falha e descreva como cada uma o investigaria.
A Eleos AI é a única organização dedicada puramente ao bem-estar de modelos. Projete uma hipotética segunda organização focada em uma questão diferente relacionada ao bem-estar (liberdade cognitiva, incorporação robótica, etc.) e articule sua metodologia.
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| MATS | "O programa de mentoria" | ML Alignment & Theory Scholars; mais de 527 pesquisadores desde 2021 |
| Redwood Research | "O laboratório de controle" | Alinhamento aplicado; autores de AI Control; parceiro do UK AISI |
| Apollo Research | "As evals de conluio" | Avaliações de conluio/intriga (scheming) pré-implantação para laboratórios de fronteira |
| METR | "As evals de tarefas autônomas" | Avaliações de capacidade baseadas em tarefas; síntese de estruturas |
| Eleos AI | "O laboratório de bem-estar" | Avaliações pré-implantação de bem-estar de modelos |
| Fluxo de talentos | "MATS -> laboratórios" | Graduados da MATS migram para Anthropic, DM, OpenAI, Redwood, Apollo, METR |
| Avaliação externa | "Verificação externa ao lab" | Avaliação não realizada pelo produtor do modelo; adiciona credibilidade |
Leitura Adicional
- MATS (ML Alignment & Theory Scholars) — o programa de mentoria
- Redwood Research — artigos sobre Controle de IA (AI Control)
- Apollo Research — avaliações de scheming
- METR — Common Elements of Frontier AI Safety Policies — comparação de estruturas
- Eleos AI Research — metodologia de bem-estar de modelos