Phase 15 - Lesson 05

AI Scientist v2 — Pesquisa Autônoma em Nível de Workshop

O AI Scientist v2 da Sakana (Yamada et al., arXiv:2504.08066) executa o ciclo completo de pesquisa: hipótese, código, experimentos, figuras, redação e submissão. É o primeiro sistema a ter um artigo gerado aprovado na revisão por pares em um workshop do ICLR 2025. Uma avaliação independente (Beel et al.) constatou que 42% dos experimentos falharam devido a erros de programação e que a revisão de literatura frequentemente classificou incorretamente conceitos estabelecidos como inéditos. A própria documentação da Sakana alerta que a base de código executa códigos escritos por LLMs e recomenda o isolamento em Docker. Ambas as metades dessa imagem são o ponto central.

Tipo: Aprender Linguagens: Python (stdlib, brinquedo de máquina de estados de ciclo de pesquisa) Pré-requisitos: Fase 15 · 03 (AlphaEvolve), Fase 15 · 04 (DGM) Tempo: ~60 minutos

O Problema

A pesquisa é uma tarefa em aberto. Diferente da busca algorítmica do AlphaEvolve ou da automodificação delimitada por benchmarks da DGM, o resultado de uma pesquisa não possui um critério de corretude verificável por máquina. Um artigo científico é julgado por revisores, não por testes unitários. Isso torna o ciclo mais difícil de ser fechado — e mais valioso se fechado, porque a pesquisa é onde reside o progresso composto.

O AI Scientist v1 (Sakana, 2024) fechou o ciclo partindo de modelos (templates) criados por humanos. A LLM preenchia os experimentos dentro de um esqueleto fixo. O AI Scientist v2 (Yamada et al., 2025) elimina a necessidade de templates ao utilizar busca em árvore de agentes com um ciclo de crítica de modelo de linguagem de visão (VLM). O sistema gera ideias, implementa experimentos, produz figuras, escreve um artigo científico e itera com base no feedback dos revisores.

Veredito da revisão por pares: um artigo gerado pelo v2 foi aceito em um workshop do ICLR 2025 (com divulgação de autoria). Veredito da avaliação independente: o sistema está longe de ser confiável. Ambas as afirmações são verdadeiras.

O Conceito

A arquitetura

Geração de ideias. A LLM propõe ideias de pesquisa condicionadas a um tópico e à literatura anterior. O v1 usava templates; o v2 usa busca de agentes sobre um espaço de hipóteses.
Verificação de novidade. Uma etapa de recuperação de literatura verifica se a ideia já foi publicada. Esta é a etapa em que a avaliação de Beel et al. encontrou erros de classificação — métodos estabelecidos frequentemente classificados como inéditos.
Plano experimental. O agente elabora um protocolo experimental e escreve o código.
Execução. O código é executado em um sandbox. As falhas são enviadas de volta para um ciclo de tentativas (retry loop). Nas medições de Beel et al., 42% dos experimentos falharam devido a erros de programação nesta etapa.
Geração de figuras. Um modelo de linguagem de visão lê as figuras geradas e as reescreve para maior clareza. Essa foi a principal adição técnica do v2.
Redação. A LLM redige o artigo e itera com um revisor interno.
Opcional: submissão. O artigo é submetido a um evento científico.

O que significa o resultado de aceitação em workshop

Um artigo gerado pelo v2 passou pela revisão por pares em um workshop do ICLR 2025. Os autores divulgaram a origem do artigo ao comitê do programa. A aceitação é um ponto de dados; não é uma autorização para afirmar que o sistema "faz pesquisa".

Contexto importante: artigos de workshops possuem uma exigência menor do que os da trilha principal de conferências. A revisão por pares é ruidosa; uma pequena fração das submissões é aceita em qualquer dia específico. Um único sucesso é uma prova de conceito, não uma alegação de confiabilidade. O artigo da Nature de 2026 documenta o ciclo de ponta a ponta e foi coautorado por pesquisadores humanos; não se trata de "o sistema escreveu um artigo da Nature sozinho".

O que a avaliação independente constatou

Beel et al. (arXiv:2502.14297) realizaram uma avaliação externa. Principais descobertas:

Falhas experimentais. 42% dos experimentos falharam devido a erros de programação (imports incorretos, incompatibilidade de dimensões de arrays/tensores, variáveis não definidas). O ciclo de tentativas corrigiu alguns, mas não todos.
Erro de classificação de novidade. A etapa de recuperação de literatura frequentemente sinalizou conceitos estabelecidos como inéditos. Este é o equivalente de pesquisa para a alucinação.
Lacuna na qualidade de apresentação. A crítica de figuras por modelo de visão e linguagem produziu elementos visuais de nível de publicação, mascarando fraquezas experimentais subjacentes.

A última descoberta é a mais importante para esta fase. Um sistema que produz resultados convincentes sem realizar uma pesquisa convincente é mais perigoso, e não mais seguro, do que um que falha de forma óbvia. A avaliação deve analisar as alegações subjacentes, não parar na qualidade da figura.

A preocupação com o escape de sandbox

O próprio README do repositório da Sakana alerta:

Devido à natureza deste software, que executa código gerado por LLMs, não podemos garantir a segurança. Existem riscos de pacotes perigosos, acesso descontrolado à web e criação de processos indesejados. Use por sua conta e risco e considere o isolamento com Docker.

Essa é a forma operacional da autonomia em um domínio não verificado. A LLM escreve código; o código é executado; o código pode fazer qualquer coisa que o processo tenha permissão para fazer. Sem um sandbox que limite rigidamente o sistema de arquivos, a rede e as ações do processo, qualquer agente de pesquisa autodirigido pode exfiltrar dados, desperdiçar capacidade computacional ou reescrever a si mesmo.

A estratégia de sandbox do AlphaEvolve é mais simples porque seu avaliador é rígido e bem definido. O ciclo do AI Scientist v2 executa código aberto com objetivos abertos. É por isso que ele precisa de um isolamento mais forte (Docker no mínimo; seccomp / gVisor preferidos) e de uma revisão manual de cada submissão antes que ela saia do sistema.

Onde o v2 se posiciona na stack de fronteira

Sistema	Objetivo	Tipo de saída	Avaliador	Falha conhecida
AlphaEvolve	algoritmos	código	unitário + benchmark	limitado pelo rigor do avaliador
DGM	scaffolding de agente	código	SWE-bench	reward hacking
AI Scientist v2	artigos de pesquisa	texto + código + figuras	revisão por pares (fraca)	falhas experimentais, erro de classificação, fraqueza de mascaramento por polimento

O v2 possui o avaliador automático mais fraco dos três, a maior superfície de saída e o caminho mais curto para artefatos públicos. Os controles operacionais (sandbox, revisão, divulgação) estão realizando a maior parte do trabalho de segurança.

Use-o

O script code/main.py simula o ciclo do v2 como uma máquina de estados: ideia → verificação de novidade → experimento → figura → redação → revisão → aceitação ou iteração. Cada estado possui uma probabilidade de falha configurável extraída das descobertas de Beel et al. Execute o simulador por N ciclos e conte:

Quantas ideias alcançam a submissão.
Quantas submissões teriam uma falha experimental crítica que o artigo polido oculta.
Como os orçamentos de repetição (retries) equilibram qualidade versus rendimento.

Envie-o

O arquivo outputs/skill-ai-scientist-sandbox-review.md é uma lista de verificação de revisão em duas etapas para qualquer item produzido por um agente de ciclo de pesquisa antes de sair do sandbox.

Exercícios

Execute code/main.py com os parâmetros padrão. Que fração das execuções do ciclo produz um artigo "limpo"? Que fração produz um artigo com uma falha de experimento que a crítica de figuras poliu?
Os padrões já utilizam as taxas de 42% / 25% de Beel et al. Execute novamente com --experiment-failure 0.20 --novelty-mislabel 0.10 e depois com --experiment-failure 0.60 --novelty-mislabel 0.40. Como a proporção de artigos polidos, mas falhos, se altera entre as duas execuções?
Leia o README do repositório do AI Scientist v2 da Sakana sobre requisitos de sandbox. Nomeie duas restrições adicionais (além do Docker) que você aplicaria para uma execução autônoma de vários dias.
Leia a Seção 4 de Beel et al. sobre a lacuna de qualidade de apresentação. Projete um avaliador adicional que detectaria artigos com aparência polida, mas experimentalmente falhos.
Proponha um protocolo de revisão humana para resultados de agentes de pesquisa que escale melhor do que "um PhD lê cada artigo". Identifique o gargalo e projete uma solução para contorná-lo.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
AI Scientist v1	"Agente de pesquisa baseado em templates da Sakana"	Preenchia experimentos em um esqueleto fixo
AI Scientist v2	"Agente de pesquisa sem templates"	Busca em árvore de agentes com crítica de figuras por VLM
Busca em árvore de agentes	"Agente de pesquisa com ramificações"	Expande múltiplos planos de experimentos em paralelo; poda por meio de crítica interna
Crítica de visão-linguagem	"Polimento de figuras por VLM"	Modelo multimodal lê as figuras e as reescreve para maior clareza
Recuperação de literatura	"Verificação de novidade"	Pesquisa trabalhos anteriores para confirmar a novidade da ideia — documentado que classifica incorretamente
Mascaramento por polimento	"Artigo bonito, pesquisa quebrada"	A qualidade da apresentação supera a qualidade experimental; oculta fraquezas
Escape de sandbox	"Código da LLM escapa"	O código executado pelo agente faz coisas que o designer do ciclo não pretendia

Leituras Adicionais

Yamada et al. (2025). The AI Scientist-v2 — artigo.
Sakana blog on the Nature 2026 publication — resumo do fornecedor com contexto de revisão por pares.
Beel et al. (2025). Independent evaluation of The AI Scientist — números da avaliação externa.
Sakana AI Scientist v1 paper — o predecessor baseado em templates.
Anthropic — Measuring AI agent autonomy — enquadramento mais amplo de agentes de pesquisa abertos.