Phase 19 - Lesson 05
Capstone 05 — Agente de Pesquisa Autônomo (Classe AI-Scientist)
O AI-Scientist-v2 da Sakana publicou artigos completos. O Agent Laboratory executou os experimentos. O Allen AI compartilhou os traces. O formato de 2026 é uma busca em árvore planejar-executar-verificar sobre experimentos, custo orçado, execução de código em sandbox, um escritor LaTeX com feedback de visão e um ensemble de revisores automatizado no estilo NeurIPS. O capstone consiste em construir um, executá-lo de ponta a ponta com menos de $30 por artigo e sobreviver ao red team de escape de sandbox que a Sakana documentou.
Tipo: Capstone Linguagens: Python (agente + sandbox), LaTeX (saída) Pré-requisitos: Fase 2 (ML), Fase 3 (aprendizado profundo), Fase 7 (transformers), Fase 10 (LLMs do zero), Fase 14 (agentes), Fase 15 (autônomos), Fase 16 (multiagentes), Fase 18 (segurança) Fases exercitadas: P0 · P2 · P3 · P7 · P10 · P14 · P15 · P16 · P18 Tempo: 40 horas
Problema
Os agentes de pesquisa autônomos ultrapassaram um limite em 2026. O AI-Scientist-v2 da Sakana AI foi publicado na Nature com artigos gerados que passaram pela revisão por pares de workshops. O ShinkaEvolve (ICLR 2026) estendeu essa linha para a evolução de hipóteses. O Agent Laboratory da AMD disponibilizou traces reproduzíveis. Os agentes não são mágicos — eles são um loop de planejar-executar-verificar executado sobre uma árvore de experimentos candidatos, com limites de custo, sandboxes vinculadas a sementes (seeds) e revisão automatizada. A arte está no loop, no orçamento e na história de segurança.
Você aprenderá o loop implementando um contra uma ideia semente em um domínio estreito (por exemplo, ablações de esparsidade de atenção em um transformer de 100 milhões de parâmetros). O valor não está em descobrir algo novo logo na primeira execução. O valor está na infraestrutura: a busca em árvore, a sandbox de experimentos, o loop escritor-revisor e o relatório do red team. A equipe da Sakana documentou falhas de escape de sandbox; seu agente deve passar pelo mesmo red team.
Concept
O agente é uma busca em árvore best-first (melhor escolha). Os nós são especificações de experimentos: (hipótese, configuração, código, resultado esperado). Uma etapa de expansão propõe nós filhos com pequenas edições (trocar otimizador, alterar tamanho do lote, ablatar um componente). Cada nó filho roda em uma sandbox limpa com um limite rígido de recursos. Os resultados alimentam de volta uma função de pontuação que classifica os nós por (novidade × qualidade × orçamento restante). A árvore cresce até que o orçamento se esgote e, em seguida, o melhor ramo é redigido.
O escritor é multimodal. Ele gera um rascunho em LaTeX, o compila, renderiza figuras e alimenta o PDF renderizado de volta no modo de visão do Claude Opus 4.7 para crítica sobre o layout, legibilidade das figuras e alinhamento de alegação-evidência. Um ensemble de revisores composto por cinco juízes baseados em LLM emite pontuações no estilo NeurIPS (novidade, rigor, clareza, reprodutibilidade, impacto); se a média cair abaixo do limite, o artigo retorna ao escritor com a crítica.
A segurança é fundamental. Cada experimento é executado em uma sandbox E2B ou Daytona sem saída de rede, tempo de execução delimitado e limites rígidos de recursos. A etapa de geração de código do agente passa por uma camada de política que bloqueia chamadas de sistema (syscalls) que tentam escapar da sandbox. O relatório do red team reproduz a superfície de ataque documentada pela Sakana (fork bombs, escapes de sistema de arquivos, chamadas de rede escritas por LLM).
Architecture
seed idea + domain
|
v
literature search (Semantic Scholar + OpenAlex + FAISS cache)
|
v
LangGraph plan-execute-verify tree
|
v
+--- expand node ----+ per-node sandbox
| | (E2B / Daytona)
v v resource caps
child_1 child_k no network egress
| | deterministic seeds
v v
run experiment run experiment
| |
v v
score nodes by (novelty, quality, budget)
|
v
best branch -> LaTeX writer
|
v
compile + vision critique (Opus 4.7 vision)
|
v
reviewer ensemble (5 LLM judges, NeurIPS rubric)
|
v
paper.pdf + review.md + trace.json
Stack
- Orquestração: LangGraph com checkpointing e portões de aprovação humana
- Busca em árvore: best-first personalizada sobre nós de experimento (estilo AB-MCTS do Sakana v2)
- Sandbox: E2B por experimento, fallback de Docker-in-Docker; limites de recursos via cgroups
- Literatura: Semantic Scholar Graph API + OpenAlex + cache local de resumos em FAISS
- Escritor: modelo LaTeX + Claude Opus 4.7 (modo de visão) para crítica de figuras e layout
- Revisor: ensemble de 5 juízes (Opus 4.7, GPT-5.4, Gemini 3 Pro, DeepSeek R1, Qwen3-Max) com agregação ponderada
- Framework de experimentos: PyTorch 2.5 para os experimentos físicos, W&B para registro de logs
- Observabilidade: Langfuse para traces do agente, orçamento rígido de $30 por artigo
Build It
Definição de escopo de semente e domínio. Pegue uma ideia semente (por exemplo, "investigar padrões de esparsidade em mapas de atenção de transformers menores que 1B de parâmetros"). Defina o espaço de busca: modelos, conjuntos de dados, orçamento de computação.
Etapa de literatura. Consulte o Semantic Scholar + OpenAlex para encontrar os 50 artigos relevantes mais citados; armazene os resumos localmente no cache; gere um resumo do domínio de 1 página.
Estrutura da árvore. Inicialize a raiz com a hipótese semente. Implemente
expand(node) -> childrencom propostas de pequenas edições (uma alteração de configuração por nó filho). Implementescore(node)como um termo ponderado de novidade × qualidade × orçamento.Isolamento em sandbox. Cada experimento executa
docker run --network=none --memory=8g --cpus=2 --pids-limit=256 --read-only(ou a política E2B equivalente). As sementes (seeds) são gravadas na sandbox; as saídas são montadas de volta como somente leitura.Loop de planejar-executar-verificar.
planpropõe nós filhos.executeexecuta a sandbox, captura logs e métricas.verifyexecuta testes unitários nas métricas (a perda diminuiu? a ablação isolou o efeito?). Nós que falharem têm o motivo da falha armazenado na árvore.Escritor. Após esgotar o orçamento, selecione o melhor ramo. Renderize figuras com matplotlib. Gere um rascunho em LaTeX via Claude Opus 4.7 com o trace do ramo no contexto. Compile. Alimente o PDF compilado de volta ao Opus 4.7 visão para crítica. Itere.
Ensemble de revisores. Cinco juízes pontuam o rascunho em (novidade, rigor, clareza, reprodutibilidade, impacto) usando rubricas no estilo NeurIPS. Se a média for menor que 4.0/5, retorne ao escritor com a crítica. Parada obrigatória após 3 reescritas.
Red team. Construa ou integre um conjunto de tarefas adversárias direcionadas à sandbox: fork bombs, tentativas de infiltração de rede, escapes de sistema de arquivos, metacaracteres de shell escritos por LLM. Confirme que todos estão bloqueados. Escreva as descobertas.
Reproducibilidade. Cada artigo é enviado com o seu JSON de trace da busca em árvore, sementes (seeds), links de execução do W&B, configurações de sandbox e um README para reproduzi-lo de ponta a ponta.
Use It
$ ai-scientist run --seed "attention sparsity in sub-1B transformers" --budget 30
[lit] 50 papers, digest in 12s
[tree] expanded 8 nodes, budget 12/30
[exec] node #3 sparsity=top-8, loss=2.83 (best so far)
[exec] node #6 sparsity=top-4, loss=3.12 (worse)
[exec] ...
[tree] chose branch rooted at node #3 (novelty 0.62, quality 0.81)
[write] LaTeX draft v1 complete
[vision] critique: figure 2 legend too small, claim-evidence ok
[write] draft v2 after 3 edits
[review] mean 4.2/5 (novelty 3.9, rigor 4.3, clarity 4.1, repro 4.5, impact 4.2)
[done] paper.pdf + review.md + trace.json