Phase 15 - Lesson 05
AI Scientist v2 — Investigación Autónoma a Nivel de Workshop
AI Scientist v2 de Sakana (Yamada et al., arXiv:2504.08066) ejecuta el bucle de investigación completo: hipótesis, código, experimentos, figuras, redacción y envío. Es el primer sistema en lograr que un artículo generado pase la revisión por pares en un workshop de ICLR 2025. Una evaluación independiente (Beel et al.) encontró que el 42% de los experimentos fallaron debido a errores de código y que la revisión de literatura con frecuencia etiquetó erróneamente conceptos establecidos como novedosos. La propia documentación de Sakana advierte que la base de código ejecuta código escrito por LLMs y recomienda el aislamiento en Docker. Ambas mitades de ese panorama son el punto clave.
Tipo: Aprender Lenguajes: Python (stdlib, juguete de máquina de estados para bucle de investigación) Prerrequisitos: Fase 15 · 03 (AlphaEvolve), Fase 15 · 04 (DGM) Tiempo: ~60 minutos
El Problema
La investigación es una tarea abierta. A diferencia de la búsqueda algorítmica de AlphaEvolve o de la automodificación acotada por benchmarks de DGM, el resultado de una investigación no tiene un criterio de corrección verificable por máquina. Un artículo es evaluado por revisores, no por pruebas unitarias. Esto hace que el bucle sea más difícil de cerrar, pero también más valioso si se logra, porque en la investigación es donde reside el progreso compuesto.
AI Scientist v1 (Sakana, 2024) cerró el bucle partiendo de plantillas creadas por humanos. El LLM completaba los experimentos dentro de un andamiaje fijo. AI Scientist v2 (Yamada et al., 2025) elimina el requisito de las plantillas al utilizar una búsqueda en árbol de agentes con un bucle de crítica mediante un modelo de lenguaje y visión (VLM). El sistema genera ideas, implementa experimentos, produce figuras, escribe un artículo e itera en función de los comentarios de los revisores.
Vedicto de la revisión por pares: un artículo generado por v2 fue aceptado en un workshop de ICLR 2025 (con divulgación). Veredicto de la evaluación independiente: el sistema está lejos de ser confiable. Ambas afirmaciones son ciertas.
El Concepto
La arquitectura
- Generación de ideas. El LLM propone ideas de investigación condicionadas a un tema y a la literatura previa. v1 utilizaba plantillas; v2 utiliza búsqueda de agentes sobre un espacio de hipótesis.
- Verificación de novedad. Un paso de recuperación de literatura verifica si la idea ya ha sido publicada. Este es el paso donde la evaluación de Beel et al. encontró un etiquetado erróneo: con frecuencia se clasificaron métodos establecidos como novedosos.
- Plan de experimentos. El agente redacta un protocolo experimental y escribe código.
- Ejecución. El código se ejecuta en un sandbox. Las fallas se envían de vuelta a un bucle de reintento. En las mediciones de Beel et al., el 42% de los experimentos fallaron debido a errores de código en esta etapa.
- Generación de figuras. Un modelo de lenguaje y visión lee las figuras generadas y las reescribe para mayor claridad. Esta fue la principal adición técnica de v2.
- Redación. El LLM redacta un artículo e itera con un revisor interno.
- Opcional: envío. El artículo se envía a una conferencia o revista.
Qué significa el resultado de aceptación en el workshop
Un artículo generado por v2 pasó la revisión por pares en un workshop de ICLR 2025. Los autores divulgaron el origen del artículo al comité del programa. La aceptación es un dato; no es una licencia para afirmar que el sistema "hace investigación".
Contexto importante: los artículos de workshop tienen un estándar más bajo que los artículos de la sección principal de las conferencias. La revisión por pares es ruidosa; una pequeña fracción de los envíos es aceptada en un día cualquiera. Un éxito es una prueba de concepto, no una declaración de confiabilidad. El artículo de Nature de 2026 documenta el bucle de extremo a extremo y fue coescrito por investigadores humanos; no significa que "el sistema escribió un artículo para Nature".
Qué encontró la evaluación independiente
Beel et al. (arXiv:2502.14297) realizaron una evaluación externa. Hallazgos principales:
- Fallos en experimentos. El 42% de los experimentos fallaron debido a errores de código (importaciones incorrectas, discrepancias de dimensiones, variables no definidas). El bucle de reintento detectó algunos, pero no todos.
- Etiquetado erróneo de novedad. El paso de recuperación de literatura con frecuencia marcó conceptos establecidos como novedosos. Este es el equivalente de investigación de la alucinación.
- Brecha en la calidad de presentación. La crítica de figuras mediante el modelo de lenguaje y visión produjo elementos visuales con calidad de publicación, enmascarando debilidades experimentales subyacentes.
El último hallazgo es el más importante para esta fase. Un sistema que produce resultados convincentes sin realizar una investigación convincente es más peligroso, no más seguro, que uno que falla de manera obvia. La evaluación debe llegar a las afirmaciones subyacentes, no detenerse en la figura.
La preocupación por el escape del sandbox
El propio README del repositorio de Sakana advierte:
Debido a la naturaleza de este software, el cual ejecuta código generado por LLM, no podemos garantizar la seguridad. Existen riesgos de paquetes peligrosos, acceso web no controlado y generación de procesos no deseados. Utilícelo bajo su propio riesgo y considere el aislamiento con Docker.
Esta es la forma operativa de la autonomía en un dominio no verificado. El LLM escribe código; el código se ejecuta; el código puede hacer cualquier cosa que el proceso tenga permitido hacer. Sin un sandbox que limite estrictamente las acciones del sistema de archivos, la red y los procesos, cualquier agente de investigación autodirigido puede exfiltrar datos, consumir cómputo o reescribirse a sí mismo.
La estrategia de sandbox de AlphaEvolve es más sencilla porque su evaluador es estricto. El bucle de AI Scientist v2 ejecuta código abierto con objetivos abiertos. Es por eso que requiere un aislamiento más fuerte (mínimo Docker; se prefiere seccomp / gVisor) y una revisión manual de cada envío antes de que salga del sistema.
Dónde se ubica v2 en la pila de frontera
| Sistema | Objetivo | Tipo de salida | Evaluador | Fallo conocido |
|---|---|---|---|---|
| AlphaEvolve | algoritmos | código | unitario + benchmark | limitado por el rigor del evaluador |
| DGM | andamiaje de agente | código | SWE-bench | hacking de recompensa |
| AI Scientist v2 | artículos de investigación | texto + código + figuras | revisión por pares (débil) | fallos en experimentos, etiquetado erróneo, debilidad de enmascaramiento por pulido |
v2 tiene el evaluador automático más débil de los tres, la superficie de salida más amplia y el camino más corto hacia los artefactos públicos. Los controles operativos (sandbox, revisión, divulgación) realizan la mayor parte del trabajo de seguridad.
Úselo
El script code/main.py simula el bucle de v2 como una máquina de estados: idea → verificación de novedad → experimento → figura → redacción → revisión → aceptar o iterar. Cada estado tiene una probabilidad de fallo configurable obtenida de los hallazgos de Beel et al. Ejecute el simulador durante N bucles y cuente:
- Cuántas ideas llegan al envío.
- Cuántos envíos tendrían un fallo experimental crítico que el artículo pulido oculta.
- Cómo el presupuesto de reintentos equilibra la calidad frente al rendimiento.
Envíelo
El archivo outputs/skill-ai-scientist-sandbox-review.md es una lista de verificación de revisión de dos etapas para cualquier producto generado por un agente del bucle de investigación antes de salir del sandbox.
Ejercicios
Ejecute
code/main.pycon los parámetros predeterminados. ¿Qué fracción de las ejecuciones del bucle produce un artículo "limpio"? ¿Qué fracción produce un artículo con un fallo en el experimento que la crítica de figuras pulió?Los valores predeterminados ya utilizan el 42% / 25% de Beel et al. Vuelva a ejecutar con
--experiment-failure 0.20 --novelty-mislabel 0.10y luego con--experiment-failure 0.60 --novelty-mislabel 0.40. ¿Cómo cambia la proporción de artículos pulidos pero defectuosos entre las dos ejecuciones?Lea el README del repositorio de AI Scientist v2 de Sakana sobre los requisitos del sandbox. Nombre dos restricciones adicionales (más allá de Docker) que aplicaría para una ejecución autónoma de varios días.
Lea la Sección 4 de Beel et al. sobre la brecha en la calidad de presentación. Diseñe un evaluador adicional que detecte artículos de apariencia pulida pero con fallos experimentales.
Proponga un protocolo de revisión humana para los resultados del agente de investigación que escale mejor que "un doctor lee cada artículo". Identifique el cuello de botella y diseñe una solución al respecto.
Términos Clave
| Término | Lo que dice la gente | Lo que realmente significa |
|---|---|---|
| AI Scientist v1 | "Agente de investigación con plantilla de Sakana" | Completaba experimentos en un andamiaje fijo |
| AI Scientist v2 | "Agente de investigación sin plantillas" | Búsqueda en árbol de agentes con crítica de figuras por VLM |
| Búsqueda en árbol de agentes | "Agente de investigación con ramificaciones" | Expande múltiples planes de experimentos en paralelo; poda mediante un crítico interno |
| Crítica de lenguaje y visión | "Pulido de figuras por VLM" | El modelo multimodal lee las figuras y las reescribe para mayor claridad |
| Recuperación de literatura | "Verificación de novedad" | Busca trabajos previos para confirmar la novedad de la idea — documentado que etiqueta erróneamente |
| Enmascaramiento por pulido | "Artículo bonito, investigación rota" | La calidad de presentación supera la calidad experimental; oculta las debilidades |
| Escape de sandbox | "El código del LLM escapa" | El código ejecutado por el agente hace cosas que el diseñador del bucle no planeó |
Lecturas Adicionales
- Yamada et al. (2025). The AI Scientist-v2 — artículo.
- Sakana blog on the Nature 2026 publication — resumen del proveedor con contexto de revisión por pares.
- Beel et al. (2025). Independent evaluation of The AI Scientist — números de la evaluación externa.
- Sakana AI Scientist v1 paper — el predecesor basado en plantillas.
- Anthropic — Measuring AI agent autonomy — encuadre más amplio de agentes de investigación abiertos.