Phase 16 - Lesson 18

Teoría de la Mente y Coordinación Emergente

Li et al. (arXiv:2310.10701) mostraron que los agentes de LLM en un juego cooperativo de texto exhiben una Teoría de la Mente (ToM) emergente de orden superior —razonar sobre lo que otro agente cree sobre las creencias de un tercer agente—, pero fallan en la planificación a largo plazo debido a la gestión del contexto y la alucinación. Riedl (arXiv:2510.05174) midió la sinergia de orden superior en una población y descubrió que solo la condición con prompt de ToM produce diferenciación vinculada a la identidad y complementariedad orientada al objetivo; los LLM de menor capacidad muestran solo una emergencia espuria. Es decir, la emergencia de la coordinación es condicional al prompt y dependiente del modelo, no es gratuita. Esta lección implementa un agente mínimo consciente de ToM, ejecuta una tarea cooperativa con y sin prompting de ToM, y mide el delta de coordinación frente al protocolo Riedl 2025.

Tipo: Learn + Build Lenguajes: Python (stdlib) Prerrequisitos: Fase 16 · 07 (Sociedad de la Mente y Debate), Fase 16 · 17 (Agentes Generativos) Tiempo: ~75 minutos

El Problema

La coordinación multiagente a menudo parece mágica: los agentes se dividen el trabajo, se anticipan unos a otros y evitan redundancias. Normalmente, esta "emergencia" es un artefacto de la ingeniería de prompts: alguien les dijo a los agentes que "se coordinaran". Si se elimina el prompt, desaparece la coordinación.

El hallazgo de Riedl en 2025 es más estricto: bajo condiciones controladas, la coordinación solo emerge cuando a los agentes se les pide que razonen sobre las mentes de otros agentes (ToM). Sin el prompt de ToM, incluso los modelos fuertes muestran patrones de coordinación que no sobreviven a los controles estadísticos. Esto es importante para la producción: los equipos lanzan funciones de "coordinación multiagente" que dependen estrictamente del prompt y son frágiles.

Esta lección trata la ToM como una capacidad específica (razonar sobre creencias sobre creencias), construye un agente mínimo consciente de ToM y mide cómo se ve la coordinación real frente a lo que es solo maquillaje de prompts.

Concepto

Qué significa ToM

Psicología del desarrollo: un niño de 3 años piensa que el mundo interior de todos coincide con el suyo. Uno de 5 años entiende que los demás tienen creencias diferentes. Uno de 7 años razona sobre creencias sobre creencias ("ella cree que yo creo que la pelota está debajo del vaso"). Estos son ToM de orden cero, primer orden y segundo orden.

Para los agentes de LLM, los órdenes de ToM se mapean a:

Orden cero: no hay modelo de los demás. El agente actúa únicamente sobre sus propias observaciones.
Primer orden: el agente tiene un modelo de las creencias de cada uno de los demás agentes. "Alice cree X".
Segundo orden: el agente modela creencias recursivas. "Alice cree que Bob cree X".

Li et al. 2023 descubrieron que la ToM de primer y segundo orden emerge en agentes de LLM en juegos cooperativos, pero se degrada con horizontes largos y comunicación no confiable.

El test Sally-Anne, en resumen

Una prueba de falsa creencia de 1985: Sally pone una canica en la cesta A y se va. Anne mueve la canica a la cesta B. ¿Dónde buscará Sally cuando regrese? Un niño con ToM de primer orden dice en la cesta A (la creencia de Sally difiere de la realidad). Un niño sin ella dice en la cesta B.

Los LLM de la era GPT-4 superan pruebas al estilo de Sally-Anne cuando se plantean con claridad. Fallan cuando la narrativa es larga, la escena cambia varias veces o la pregunta se formula indirectamente. Ese es el estado práctico de ToM en LLM de producción en 2026.

Medición de la coordinación de Riedl

Riedl (arXiv:2510.05174) construyó una prueba a escala de población: N agentes, un objetivo cooperativo, condiciones de prompt variables. Métricas medidas:

Diferenciación vinculada a la identidad. ¿Desarrollan los agentes distinciones de roles estables a lo largo del tiempo?
Complementariedad orientada al objetivo. ¿Se complementan las acciones de los agentes (diferentes subtareas) en lugar de duplicarse?
Sinergia de orden superior. Una medida estadística de si el grupo logra lo que ningún subconjunto podría.

Resultado: solo bajo la condición del prompt de ToM todas las tres métricas producen señal por encima de la línea base. Sin el prompting de ToM, las métricas rondan el azar para modelos de capacidad moderada. Los modelos grandes muestran cierta coordinación sin prompting explícito de ToM, pero el efecto es menor que con el prompting explícito.

La ilusión de la coordinación

Sin controles estadísticos, la "coordinación emergente" en las demostraciones a menudo refleja:

Ingeniería de prompts que predefine la coordinación (prompts del sistema que dicen "trabajen juntos").
Sesgo del observador (vemos los patrones que esperamos).
Selección selectiva (cherry-picking) de ejecuciones exitosas a posteriori.

Los sistemas de producción que promocionan la "coordinación emergente" sin una señal medible deben tratarse como marketing. Mide antes de afirmar.

Un agente mínimo consciente de ToM

Estructura:

agent state:
  own_beliefs:    {facts the agent believes}
  other_models:   {other_agent_id -> {beliefs_the_agent_attributes_to_them}}
  actions_last_N: [history of others' actions]

observation update:
  - update own_beliefs from direct observation
  - update other_models[agent_id] from their action + prior beliefs

action selection:
  - enumerate candidate actions
  - for each, predict what each other agent will do next given their modeled beliefs
  - pick action that maximizes joint outcome under those predictions

El atributo other_models es el estado de ToM. La ToM de primer orden mantiene solo un nivel. La de segundo orden añade other_models[i][other_models_of_j], lo que yo creo que el agente i cree que el agente j cree.

Por qué el horizonte largo perjudica

Li et al. documentan: los límites de contexto hacen que os agentes olviden qué creencia pertenece a quién. La alucinação agrega creencias falsas a los modelos de otros agentes. Ambos producen errores del tipo "creí que él creía X" que se acumulan con el tiempo.

Mitigaciones documentadas en el artículo y en el seguimiento de 2024-2026:

Estado explícito de ToM en el prompt. Formato estructurado: {agent_id: belief_list}. Obliga al mecanismo de atención a preservar la vinculación identidad-creencia.
Cadenas de razonamiento más cortas. Menos actualizaciones de ToM por turno reducen la alucinación acumulativa.
Almacén externo de ToM. Mantén el modelo fuera del contexto del LLM; inyecta solo las partes relevantes en cada turno.

Dónde falla ToM en producción

Entornos adversarios. Los agentes con buena ToM son más fáciles de manipular (puedes modelar lo que ellos modelan de ti y luego explotarlo).
Equipos heterogéneos. Cuando los modelos son diferentes, el modelo de ToM que funciona para un oponente no se generaliza a otros.
Tareas dependientes de la verdad absoluta (ground-truth). La ToM trata sobre creencias; si la corrección depende de hechos objetivos, la ToM puede ser una distracción.

La coordinación que realmente puedes medir

Tres señales prácticas de que la coordinación de un equipo es real y no mero maquillaje de prompts:

Complementariedad a lo largo del tiempo. En una tarea de varios turnos, ¿cubren las acciones de los agentes subtareas disjuntas?
Anticipación. ¿Depende la acción del agente A en el turno T+1 de una predicción correcta sobre la acción de B en el turno T+2?
Corrección. Cuando A interpreta mal la creencia de B en el turno T, ¿corrige A la interpretación para el turno T+2?

Estas señales son medibles en un sistema multiagente con registros. Son la versión sustantiva de la narrativa de "coordinación".

Build It

code/main.py implementa:

ToMAgent: rastrea las propias creencias y los modelos de creencias de cada otro agente.
Una tarea cooperativa: tres agentes deben recoger tres fichas de tres cajas; cada caja puede contener una ficha. Los agentes no pueden comunicarse; infieren la intención a partir de las acciones de los demás.
Dos configuraciones: zeroth_order (sin ToM) y first_order (ToM con modelo de creencias de un nivel).
Medición en 200 ensayos aleatorios: tasa de finalización, tasa de duplicación (dos agentes que se dirigen a la misma caja) y promedio de turnos para completar.

Ejecución:

python3 code/main.py

Salida esperada: los agentes de orden cero duplican el esfuerzo a una tasa de ~35% y completan ~60% de los ensayos en 10 turnos. Los agentes con ToM de primer orden duplican a una tasa de ~5% y completan ~95%. El delta es el efecto de coordinación medible.

Use It

outputs/skill-tom-auditor.md es una habilidad que audita la afirmación de "coordinación emergente" de un sistema multiagente. Comprueba que no haya mero maquillaje de prompts, evalúa la significación estadística frente a un control y mide la complementariedad.

Ship It

Lista de verificación para afirmaciones de coordinación:

Condición de control. Una versión de tu sistema sin el prompt de coordinación. Mide ambas.
Prueba estadística. ¿Es significativa la diferencia entre el sistema y el control con p < 0.05 en tu métrica?
Medida de complementariedad. Acciones disjuntas a lo largo del tiempo, no solo el éxito final.
Registro de casos de fallo. Cuando los agentes no logran coordinarse, ¿cómo se ve el estado de ToM?
Divulgación de la capacidad del modelo. Si el efecto desaparece en modelos más pequeños, dilo.

Ejercicios

Ejecuta code/main.py. Confirma que ToM de primer orden reduce la tasa de duplicación en ~7 veces. ¿Se mantiene la brecha cuando escalas a 5 agentes y 5 cajas?
Implementa ToM de segundo orden (el agente A modela lo que B cree sobre C). ¿Mejora respecto a la de primer orden? ¿En qué tareas?
Inyecta una alucinación en el estado de ToM: cambia aleatoriamente una creencia por turno. ¿Cuánto degrada esto el rendimiento de primer orden?
Lee Li et al. (arXiv:2310.10701). Reproduce el hallazgo de "degradación en horizontes largos": a medida que los turnos crecen de 10 a 30, ¿cómo cambia tu rendimiento de ToM de primer orden?
Lee Riedl 2025 (arXiv:2510.05174). Implementa la estadística de sinergia de orden superior en los registros de tu simulación. ¿Está el efecto presente sin la condición del prompt de ToM?

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
Teoría de la Mente	"Entender la mente de los demás"	La capacidad de modelar las creencias de otro agente. Clasificada por orden (0, 1, 2+).
Test Sally-Anne	"La prueba de la falsa creencia"	Psicología del desarrollo de 1985; los LLM superan las versiones sencillas, pero fallan en las complejas.
ToM de primer orden	"A cree X"	Modelar las creencias de otro sobre los hechos.
ToM de segundo orden	"A cree que B cree X"	Modelado recursivo un nivel más profundo.
Diferenciación vinculada a la identidad	"Roles estables a lo largo del tiempo"	Métrica de Riedl: los roles persisten, no son aleatorios.
Complementariedad orientada al objetivo	"Acciones disjuntas"	Los agentes se dirigen a diferentes subtareas, no a la misma.
Sinergia de orden superior	"El grupo supera a cualquier subconjunto"	Medida estadística de Riedl para la coordinación real.
Ilusión de coordinación	"Se ve coordinado"	Apariencia de coordinación por prompts predefinidos sin señal medible.

Lecturas Adicionales

Li et al. — Theory of Mind for Multi-Agent Collaboration via Large Language Models — ToM emergente en juegos cooperativos; modos de fallo en horizontes largos
Riedl — Emergent Coordination in Multi-Agent Language Models — medición a escala de población; el prompting de ToM es la condición de soporte clave
Premack & Woodruff — Does the chimpanzee have a theory of mind? — el origen de 1978 del concepto de ToM
Baron-Cohen, Leslie, Frith — Does the autistic child have a theory of mind? — el artículo original sobre Sally-Anne (1985)