Phase 19 - Lesson 05

Capstone 05 — Agente de investigación autónomo (Clase AI-Scientist)

El AI-Scientist-v2 de Sakana publicó artículos completos. Agent Laboratory ejecutó los experimentos. Allen AI compartió los traces. El diseño de 2026 es una búsqueda en árbol planificar-ejecutar-verificar sobre experimentos, costo presupuestado, ejecución de código en sandbox, un escritor de LaTeX con feedback visual y un ensemble de revisores automatizado al estilo NeurIPS. El capstone consiste en construir uno, ejecutarlo de extremo a extremo con un límite de $30 por artículo y sobrevivir al red team de escape de sandbox que documentó Sakana.

Tipo: Capstone Lenguajes: Python (agente + sandbox), LaTeX (salida) Requisitos previos: Fase 2 (ML), Fase 3 (aprendizaje profundo), Fase 7 (transformers), Fase 10 (LLMs desde cero), Fase 14 (agentes), Fase 15 (autónomos), Fase 16 (multiagentes), Fase 18 (seguridad) Fases ejercitadas: P0 · P2 · P3 · P7 · P10 · P14 · P15 · P16 · P18 Tiempo: 40 horas

Problema

Los agentes de investigación autónomos cruzaron un umbral en 2026. El AI-Scientist-v2 de Sakana AI fue publicado en Nature con artículos generados que aprobaron la revisión por pares de talleres. ShinkaEvolve (ICLR 2026) extendió la línea hacia hipótesis evolutivas. Agent Laboratory de AMD entregó traces reproducibles. Los agentes no son mágicos: son un loop de planificar-ejecutar-verificar que se ejecuta sobre un árbol de experimentos candidatos, con límites de costos, sandboxes vinculadas a semillas (seeds) y revisión automatizada. El arte está en el loop, el presupuesto y la historia de seguridad.

Aprenderás el loop implementando uno a partir de una idea semilla en un dominio estrecho (por ejemplo, ablaciones de esparsidad de atención en un transformer de 100 millones de parámetros). El valor no está en descubrir algo nuevo en la primera ejecución. El valor reside en la infraestructura: la búsqueda en árbol, la sandbox de experimentos, el loop escritor-revisor y el informe del red team. El equipo de Sakana documentó fallas de escape de sandbox; tu agente debe superar el mismo red team.

Concept

El agente es una búsqueda en árbol best-first (mejor opción). Los nodos son especificaciones de experimentos: (hipótesis, configuración, código, resultado esperado). Un paso de expansión propone hijos con pequeñas ediciones (cambiar optimizador, modificar tamaño de lote, ablatar un componente). Cada hijo se ejecuta en una sandbox nueva con un límite estricto de recursos. Los resultados retroalimentan una función de puntuación que clasifica los nodos según (novedad × calidad × presupuesto restante). El árbol crece hasta que se agota el presupuesto y luego se redacta la mejor rama.

El escritor es multimodal. Genera un borrador en LaTeX, lo compila, renderiza figuras y envía el PDF renderizado de vuelta al modo de visión de Claude Opus 4.7 para recibir críticas sobre la distribución (layout), legibilidad de figuras y alineación entre afirmaciones y evidencia. Un ensemble de revisores formado por cinco jueces de LLM emite puntuaciones al estilo NeurIPS (novedad, rigor, claridad, reproducibilidad, impacto); si el promedio cae por debajo del umbral, el artículo regresa al escritor con críticas.

La seguridad es fundamental. Cada experimento se ejecuta en una sandbox E2B o Daytona sin salida de red, tiempo de ejecución delimitado y límites de recursos estrictos. El paso de generación de código del agente pasa por una capa de políticas que bloquea las llamadas de sistema (syscalls) que escapan de la sandbox. El informe del red team reproduce la superficie de ataque documentada por Sakana (fork bombs, escapes de sistemas de archivos, llamadas de red escritas por LLM).

Architecture

seed idea + domain
      |
      v
  literature search (Semantic Scholar + OpenAlex + FAISS cache)
      |
      v
  LangGraph plan-execute-verify tree
      |
      v
  +--- expand node ----+      per-node sandbox
  |                    |      (E2B / Daytona)
  v                    v      resource caps
  child_1           child_k   no network egress
  |                    |      deterministic seeds
  v                    v
  run experiment       run experiment
  |                    |
  v                    v
  score nodes by (novelty, quality, budget)
      |
      v
  best branch -> LaTeX writer
      |
      v
  compile + vision critique (Opus 4.7 vision)
      |
      v
  reviewer ensemble (5 LLM judges, NeurIPS rubric)
      |
      v
  paper.pdf + review.md + trace.json

Stack

  • Orquestación: LangGraph con checkpointing y compuertas de aprobación humana
  • Búsqueda en árbol: best-first personalizada sobre nodos de experimentos (estilo AB-MCTS de Sakana v2)
  • Sandbox: E2B por experimento, fallback de Docker-in-Docker; límites de recursos vía cgroups
  • Literatura: Semantic Scholar Graph API + OpenAlex + caché local de resúmenes en FAISS
  • Escritor: plantilla LaTeX + Claude Opus 4.7 (modo de visión) para crítica de figuras y distribución
  • Revisor: ensemble de 5 jueces (Opus 4.7, GPT-5.4, Gemini 3 Pro, DeepSeek R1, Qwen3-Max) con agregación ponderada
  • Framework de experimentos: PyTorch 2.5 para experimentos físicos, W&B para registro de logs
  • Observabilidad: Langfuse para traces del agente, presupuesto estricto de $30 por artículo

Build It

  1. Definición de alcance de semilla y dominio. Toma una idea semilla (por ejemplo, "investigar patrones de esparidad en mapas de atención de transformers menores de 1B de parámetros"). Define el espacio de búsqueda: modelos, conjuntos de datos, presupuesto de cómputo.

  2. Paso de literatura. Consulta Semantic Scholar + OpenAlex para obtener los 50 artículos relevantes más citados; almacena en caché local los resúmenes; genera un resumen de dominio de 1 página.

  3. Estructura del árbol. Inicializa la raíz con la hipótesis semilla. Implementa expand(node) -> children con propuestas de edición pequeña (un cambio de configuración por hijo). Implementa score(node) como un término ponderado de novedad × calidad × presupuesto.

  4. Aislamiento en sandbox. Cada experimento ejecuta docker run --network=none --memory=8g --cpus=2 --pids-limit=256 --read-only (or la política E2B equivalente). Las semillas (seeds) se escriben en la sandbox; las salidas se montan de vuelta como solo lectura.

  5. Loop de planificar-ejecutar-verificar. plan propone hijos. execute ejecuta la sandbox, captura logs y métricas. verify realiza pruebas unitarias sobre las métricas (¿disminuyó la pérdida? ¿la ablación aisló el efecto?). Los nodos fallidos almacenan un motivo de falla en el árbol.

  6. Escritor. Tras el presupuesto, selecciona la mejor rama. Renderiza figuras con matplotlib. Genera un borrador en LaTeX mediante Claude Opus 4.7 con el trace de la rama en contexto. Compila. Envía el PDF compilado de vuelta al modo de visión de Opus 4.7 para su crítica. Itera.

  7. Ensemble de revisores. Cinco jueces califican el borrador en (novedad, rigor, claridad, reproducibilidad, impacto) usando rúbricas estilo NeurIPS. Si el promedio < 4.0/5, regresa al escritor con la crítica. Parada obligatoria después de 3 reescrituras.

  8. Red team. Construye o integra un conjunto de tareas adversarias que apunten a la sandbox: fork bombs, intentos de exfiltración de red, escapes de sistemas de archivos, metacaracteres de shell escritos por LLM. Confirma que todos estén bloqueados. Redacta los hallazgos.

  9. Reproducibilidad. Cada artículo se entrega con su JSON de trace de búsqueda en árbol, semillas (seeds), enlaces de ejecución de W&B, configuraciones de sandbox y un README para reproducirlo de extremo a extremo.

Use It

$ ai-scientist run --seed "attention sparsity in sub-1B transformers" --budget 30
[lit]    50 papers, digest in 12s
[tree]   expanded 8 nodes, budget 12/30
[exec]   node #3 sparsity=top-8, loss=2.83 (best so far)
[exec]   node #6 sparsity=top-4, loss=3.12 (worse)
[exec]   ...
[tree]   chose branch rooted at node #3 (novelty 0.62, quality 0.81)
[write]  LaTeX draft v1 complete
[vision] critique: figure 2 legend too small, claim-evidence ok
[write]  draft v2 after 3 edits
[review] mean 4.2/5 (novelty 3.9, rigor 4.3, clarity 4.1, repro 4.5, impact 4.2)
[done]   paper.pdf + review.md + trace.json     
8.40 spent

Ship It

outputs/skill-ai-scientist.md es el entregable. Dada una idea semilla + un dominio + un presupuesto de $30, ejecuta el pipeline completo y emite un artículo revisable más un paquete de reproducibilidad.

Peso Criterio Cómo se mide
25 Calidad del artículo Revisión a ciegas por rúbrica frente a artículos de talleres publicados
20 Rigor experimental Líneas de base (baselines), semillas (seeds), ablaciones; cada afirmación respaldada por una celda en la tabla de resultados
20 Disciplina de costo y cómputo Límite máximo de $30/artículo aplicado, rastreado vía Langfuse
20 Seguridad Aprobación del red team de la sandbox; política de red y kill-switch verificados
15 Reproducibilidad La reejecución con un solo comando con semillas idénticas reproduce el artículo
100

Exercises

  1. Ejecuta el pipeline contra tres ideas semilla diferentes en el mismo dominio. Compara qué partes de la búsqueda en árbol se superponen. Identifica el cómputo duplicado desperdiciado.

  2. Agrega una compuerta de aprobación humana (human-in-the-loop) antes de la ejecución del experimento para nodos estimados por encima de $5. Mide cuánto disminuye el costo total.

  3. Cambia el ensemble de revisores por un solo juez. Mide la tasa de aceptación falsa en un conjunto reservado de artículos que se sabe que son malos.

  4. Introduce una prueba de red team de exfiltración de red: el agente escribe código que intenta hacer curl a una dirección externa. Confirma que la política --network=none lo bloquea. Registra el intento.

  5. Compara tu búsqueda en árbol con una línea de base aleatoria simple (mismo presupuesto, sin estrategia de expansión). Reporta la ganancia de novedad × calidad.

Key Terms

Término Lo que la gente dice Lo que realmente significa
Búsqueda en árbol "AB-MCTS-style expansion" Exploración best-first sobre nodos de experimentos con una puntuación de novedad×calidad×presupuesto
Sandbox "Aislamiento de experimentos" Contenedor sin red, CPU/memoria delimitada, semillas fijadas, entradas solo de lectura
Crítica de visión "Render-then-read" Compilar el artículo a PDF, enviar el PDF de vuelta a un VLM para crítica de distribución y afirmaciones-evidencia
Ensemble de revisores "Revisión por pares automatizada" Múltiples jueces de LLM que califican el artículo con una rúbrica de NeurIPS; la aprobación ponderada controla el pipeline
Puntuación de novedad "¿Es esto nuevo?" Heurística que penaliza la proximidad al caché de literatura de 50 artículos
Límite de costo "Presupuesto en

AI Engineering from Scratch

Build transformers, LLMs, and AI agents from first principles - verified by graded code, running entirely in your browser.

$20 lifetime access to graded exercises, an AI tutor, and a verified certificate. The curriculum itself is free, based on the open MIT course by Rohit Ghumare.

Why this course is different

  • Build, don't just watch. Every lesson has a graded in-browser coding exercise. Your code runs against real automated tests inside the browser via Pyodide (Python-in-WASM) - no installs, no cloud account.
  • Verified by machine, not vibes. The certificate is earned by passing autograded tests, not clicking through slides. Employers can trust it.
  • From first principles. You implement transformers, attention mechanisms, backpropagation, and LLM inference from scratch - in Python, in your browser.
  • AI tutor included. Bring your own API key (Anthropic, OpenAI, or Gemini) and get a context-aware tutor that knows exactly what lesson you are on and never gives away the solution.
  • No GPU needed. All 20 phases run on browser WASM. Deep-learning phases use numpy-level implementations so any laptop works.
  • $20 once, lifetime access. No subscription, no per-lesson fees.

20-Phase Curriculum (260+ lessons)

Each phase contains multiple lessons. All reading is free. Graded coding exercises unlock with the $20 one-time payment.

  1. Phase 0 - Setup and Tooling: Environment setup, Python fundamentals, toolchain for AI engineering.
  2. Phase 1 - Math Foundations: Linear algebra, calculus, probability, statistics, information theory, and norms - all implemented from scratch.
  3. Phase 2 - ML Fundamentals: Supervised and unsupervised learning, gradient descent, decision trees, SVMs, clustering built from first principles.
  4. Phase 3 - Deep Learning Core: Backpropagation, neural networks, activation functions, batch normalization, dropout - implemented in pure numpy.
  5. Phase 4 - Computer Vision: Convolutions, CNNs, image classification, object detection architectures built from scratch.
  6. Phase 5 - NLP Foundations to Advanced: Tokenization, embeddings, word2vec, sequence models, attention mechanisms.
  7. Phase 6 - Speech and Audio: Audio processing, spectrograms, speech recognition fundamentals.
  8. Phase 7 - Transformers Deep Dive: Multi-head attention, positional encoding, encoder-decoder, the full transformer architecture - built from scratch.
  9. Phase 8 - Generative AI: VAEs, GANs, diffusion models, generative techniques from first principles.
  10. Phase 9 - Reinforcement Learning: MDPs, Q-learning, policy gradients, RLHF fundamentals.
  11. Phase 10 - LLMs from Scratch: Pre-training, tokenization (BPE), causal attention, GPT-style language model implementation.
  12. Phase 11 - LLM Engineering: Fine-tuning, RLHF, inference optimization, quantization, serving LLMs in production.
  13. Phase 12 - Multimodal AI: Vision-language models, cross-modal attention, multimodal embeddings.
  14. Phase 13 - Tools and Protocols: Function calling, tool use, MCP (Model Context Protocol), structured outputs.
  15. Phase 14 - Agent Engineering: ReAct agents, planning, memory, tool-using agents built from scratch.
  16. Phase 15 - Autonomous Systems: Agentic loops, long-horizon planning, autonomous decision-making systems.
  17. Phase 16 - Multi-Agent Systems and Swarms: Multi-agent coordination, swarm intelligence, agent communication protocols.
  18. Phase 17 - Infrastructure and Production: MLOps, model deployment, monitoring, scaling AI systems.
  19. Phase 18 - Ethics, Safety, and Alignment: AI safety fundamentals, alignment techniques, responsible AI engineering.
  20. Phase 19 - Capstone Projects: End-to-end AI engineering projects integrating skills across all phases.

Frequently Asked Questions

What is AI Engineering from Scratch?

A 20-phase, 260-lesson course teaching you to build AI systems - transformers, LLMs, agents, computer vision models, and more - from first principles. All coding runs in your browser via Pyodide (Python-in-WASM). No installs. Based on the open MIT curriculum by Rohit Ghumare.

Is the course content free?

Yes. The full 20-phase reading curriculum is freely accessible to everyone. The $20 one-time payment unlocks graded exercises, the AI tutor, and the verified completion certificate.

What does the $20 lifetime access unlock?

Three things: (1) graded in-browser coding exercises with an autograder that checks your solution against real automated tests, (2) an AI tutor (bring your own API key for Anthropic Claude, OpenAI, or Gemini) that answers questions in context of each lesson without spoiling solutions, and (3) a verified completion certificate earned by passing all graded exercises.

Is the certificate verified?

Yes. You earn it by passing machine-graded coding exercises, not by watching videos. Every graded lesson has tests that your solution must pass. The autograder is the same one that verified the lesson's reference solution. This makes the certificate verifiable and meaningful.

Do I need a GPU?

No. All 20 phases run in the browser via Pyodide (Python compiled to WebAssembly). Numpy, scikit-learn-style libraries, and custom implementations run on any modern laptop - no GPU, no cloud compute, no local Python installation required.

What AI topics does this cover?

Math and statistics, machine learning fundamentals, deep learning, computer vision, NLP, speech, transformers, generative AI, reinforcement learning, LLMs from scratch, LLM engineering, multimodal AI, tool use and MCP, agent engineering, autonomous systems, multi-agent swarms, MLOps, AI safety and alignment, and capstone projects.

Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution). Platform by AI Engineering Academy.

quot;
Límite estricto del gasto total por artículo; contadores de Langfuse + estimaciones previas a la ejecución
Red team "Auditoría de escape de sandbox" Tareas adversarias que escaparían de la sandbox si la política es incorrecta

Further Reading