Phase 16 - Lesson 18

Teoria da Mente e Coordenação Emergente

Li et al. (arXiv:2310.10701) mostraram que agentes de LLM em um jogo cooperativo de texto exibem Teoria da Mente (ToM) emergente de alta ordem — raciocinar sobre o que outro agente acredita sobre as crenças de um terceiro agente —, mas falham no planejamento de longo horizonte devido ao gerenciamento de contexto e alucinação. Riedl (arXiv:2510.05174) mediu a sinergia de ordem superior em uma população e descobriu que apenas a condição com prompt de ToM produz diferenciação vinculada à identidade e complementaridade direcionada ao objetivo; LLMs de menor capacidade mostram apenas emergência espúria. Ou seja, a emergência da coordenação é condicional ao prompt e dependente do modelo, não gratuita. Esta lição implementa um agente minimalista ciente de ToM, executa uma tarefa cooperativa com e sem prompting de ToM, e mede o delta de coordenação contra o protocolo Riedl 2025.

Tipo: Learn + Build Linguagens: Python (stdlib) Pré-requisitos: Fase 16 · 07 (Sociedade da Mente e Debate), Fase 16 · 17 (Agentes Generativos) Tempo: ~75 minutos

O Problema

A coordenação multiagente frequentemente parece mágica: os agentes dividem o trabalho, antecipam-se uns aos outros e evitam redundâncias. Geralmente, essa "emergência" é um artefato da engenharia de prompt — alguém disse aos agentes para "se coordenarem". Remova o prompt e a coordenação desaparecerá.

A descoberta de Riedl em 2025 é mais rigorosa: sob condições controladas, a coordenação só emerge quando os agentes são instruídos a raciocinar sobre as mentes de outros agentes (ToM). Sem o prompt de ToM, mesmo modelos fortes exibem padrões de coordenação que não sobrevivem a controles estatísticos. Isso importa para a produção: equipes entregam recursos de "coordenação multiagente" que dependem de prompt e são frágeis.

Esta lição trata a ToM como uma capacidade específica (raciocinar sobre crenças sobre crenças), constrói um agente minimalista ciente de ToM e mede como é a coordenação real em comparação com a mera maquiagem de prompts.

Conceito

O que significa ToM

Psicologia do desenvolvimento: uma criança de 3 anos acha que o mundo interno de todos corresponde ao dela. Uma de 5 anos entende que os outros têm crenças diferentes. Uma de 7 anos raciocina sobre crenças sobre crenças ("ela pensa que eu penso que a bola está debaixo do copo"). Essas são ToM de ordem zero, primeira ordem e segunda ordem.

Para agentes de LLM, as ordens de ToM mapeiam-se para:

Ordem zero: nenhum modelo dos outros. O agente age apenas com base em suas próprias observações.
Primeira ordem: o agente possui um modelo das crenças de cada um dos outros agentes. "Alice acredita em X".
Segunda ordem: o agente modela crenças recursivas. "Alice acredita que Bob acredita em X".

Li et al. 2023 descobriram que a ToM de primeira e segunda ordem emerge em agentes de LLM em jogos cooperativos, mas degrada em horizontes longos e com comunicação não confiável.

O teste Sally-Anne, em resumo

Um teste de falsa crença de 1985: Sally coloca uma bola de gude na cesta A e sai. Anne move a bola para a cesta B. Onde Sally procurará quando voltar? Uma criança com ToM de primeira ordem diz na cesta A (a crença de Sally difere da realidade). Uma criança sem ToM diz na cesta B.

LLMs da era GPT-4 passam em testes do estilo Sally-Anne quando apresentados de forma clara. Eles falham quando a narrativa é longa, a cena muda várias vezes ou a pergunta é feita de forma indireta. Esse é o estado prático da ToM em LLMs de produção em 2026.

Medição de coordenação de Riedl

Riedl (arXiv:2510.05174) construiu um teste em escala populacional: N agentes, um objetivo cooperativo, condições de prompt variáveis. Métricas medidas:

Diferenciação vinculada à identidade. Os agentes desenvolvem distinções de papéis estáveis ao longo do tempo?
Complementaridade direcionada ao objetivo. As ações dos agentes se complementam (subtarefas diferentes) em vez de se duplicarem?
Sinergia de ordem superior. Uma medida estatística que avalia se o grupo realiza o que nenhum subgrupo conseguiria.

Resultado: apenas sob a condição de prompt de ToM todas as três métricas produziram sinal acima da linha de base. Sem prompting de ToM, as métricas flutuam perto do acaso para modelos de capacidade moderada. Modelos grandes exibem alguma coordenação sem prompting explícito de ToM, mas o efeito é menor do que com o prompting explícito.

A ilusão de coordenação

Sem controles estatísticos, a "coordenação emergente" em demonstrações frequentemente reflete:

Engenharia de prompt que embute a coordenação (prompts de sistema que dizem "trabalhem juntos").
Viés do observador (enxergamos os padrões que esperamos ver).
Seleção pós-fato (cherry-picking) de execuções bem-sucedidas.

Sistemas de produção que comercializam "coordenação emergente" sem sinal mensurável devem ser tratados como marketing. Meça antes de afirmar.

Um agente minimalista ciente de ToM

Estrutura:

agent state:
  own_beliefs:    {facts the agent believes}
  other_models:   {other_agent_id -> {beliefs_the_agent_attributes_to_them}}
  actions_last_N: [history of others' actions]

observation update:
  - update own_beliefs from direct observation
  - update other_models[agent_id] from their action + prior beliefs

action selection:
  - enumerate candidate actions
  - for each, predict what each other agent will do next given their modeled beliefs
  - pick action that maximizes joint outcome under those predictions

O atributo other_models é o estado de ToM. A ToM de primeira ordem mantém apenas um nível. A de segunda ordem adiciona other_models[i][other_models_of_j] — o que eu acho que o agente i acha que o agente j acredita.

Por que o longo horizonte prejudica

Li et al. documentam: limites de contexto fazem com que os agentes esqueçam qual crença pertence a quem. A alucinação adiciona crenças falsas aos modelos de outros agentes. Ambos produzem erros do tipo "eu pensei que ele pensasse X", que se acumulam ao longo do tempo.

Mitigações documentadas no artigo e em trabalhos subsequentes de 2024-2026:

Estado explícito de ToM no prompt. Formato estruturado: {agent_id: belief_list}. Força o mecanismo de atenção a preservar a associação identidade-crença.
Cadeias de raciocínio mais curtas. Menos atualizações de ToM por turno reduzem a alucinação cumulativa.
Armazenamento externo de ToM. Mantenha o modelo fora do contexto do LLM; injete apenas as partes relevantes a cada turno.

Onde a ToM falha na produção

Ambientes adversários. Agentes com boa ToM são mais fáceis de manipular (você pode modelar o que eles modelam sobre você e depois explorar isso).
Equipes heterogêneas. Quando os modelos são diferentes, o modelo de ToM que funciona para um oponente não se generaliza para outros.
Tarefas dependentes da verdade absoluta (ground-truth). A ToM trata de crenças; se a correção depende estritamente de fatos objetivos, a ToM pode ser uma distração.

A coordenação que você pode realmente medir

Três sinais práticos de que a coordenação de uma equipe é real, e não apenas maquiagem de prompt:

Complementaridade ao longo do tempo. Em uma tarefa de múltiplos turnos, as ações dos agentes cobrem subtarefas disjuntas?
Antecipação. A ação do agente A no turno T+1 depende de uma previsão correta sobre a ação do agente B no turno T+2?
Correção. Quando o agente A interpreta mal a crença do agente B no turno T, o agente A corrige essa interpretação até o turno T+2?

Esses sinais são mensuráveis em um sistema multiagente com logs adequados. Eles constituem a versão substantiva da narrativa de "coordenação".

Build It

code/main.py implementa:

ToMAgent — rastreia as próprias crenças e os modelos de crenças de cada outro agente.
Uma tarefa cooperativa: três agentes devem coletar três tokens de três caixas; cada caixa pode conter apenas um token. Os agentes não podem se comunicar; eles inferem a intenção a partir das ações uns dos outros.
Duas configurações: zeroth_order (sem ToM) e first_order (ToM com modelo de crença de um nível).
Medição ao longo de 200 testes aleatórios: taxa de conclusão, taxa de duplicação (dois agentes visando a mesma caixa) e média de turnos para conclusão.

Execute:

python3 code/main.py

Saída esperada: agentes de ordem zero duplicam esforços a uma taxa de ~35% e completam ~60% dos testes em 10 turnos. Agentes com ToM de primeira ordem duplicam a ~5% e completam ~95%. A diferença é o efeito de coordenação mensurável.

Use It

outputs/skill-tom-auditor.md é uma habilidade que auditoria a alegação de "coordenação emergente" de um sistema multiagente. Verifica se há maquiagem de prompt, significância estatística contra um controle e complementaridade medida.

Ship It

Checklist para alegações de coordenação:

Condição de controle. Uma versão do seu sistema sem o prompt de coordenação. Meça ambas as condições.
Teste estatístico. A diferença entre o sistema e o controle é significativa com p < 0.05 na sua métrica?
Medida de complementaridade. Disjunção de ações ao longo do tempo, não apenas o sucesso final.
Log de casos de falha. Quando os agentes falham na coordenação, como fica o estado de ToM?
Divulgação da capacidade do modelo. Se o efeito desaparece em modelos menores, declare isso claramente.

Exercícios

Execute code/main.py. Confirme se a ToM de primeira ordem reduz a taxa de duplicação em ~7x. A lacuna persiste quando você escala para 5 agentes e 5 caixas?
Implemente ToM de segunda ordem (o agente A modela o que B pensa sobre C). Isso traz melhorias em relação à primeira ordem? Em quais tarefas?
Injete uma alucinação no estado de ToM: inverta aleatoriamente uma crença por turno. O quanto isso degrada o desempenho de primeira ordem?
Leia Li et al. (arXiv:2310.10701). Reproduza a descoberta de "degradação em longo horizonte": à medida que os turnos aumentam de 10 para 30, como o desempenho da sua ToM de primeira ordem muda?
Leia Riedl 2025 (arXiv:2510.05174). Implemente a estatística de sinergia de ordem superior nos logs de sua simulação. O efeito está presente sem a condição de prompt de ToM?

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Teoria da Mente	"Entender a mente dos outros"	A capacidade de modelar as crenças de outro agente. Classificada por ordem (0, 1, 2+).
Teste Sally-Anne	"O teste da falsa crença"	Psicologia do desenvolvimento de 1985; LLMs passam em versões simples, falham em complexas.
ToM de primeira ordem	"A acredita em X"	Modelar as crenças de outrem sobre fatos.
ToM de segunda ordem	"A acredita que B acredita em X"	Modelagem recursiva um nível mais profunda.
Diferenciação vinculada à identidade	"Papéis estáveis ao longo do tempo"	Métrica de Riedl: os papéis persistem e não são aleatórios.
Complementaridade direcionada ao objetivo	"Ações disjuntas"	Agentes visam subtarefas diferentes, evitando a duplicação de esforço.
Sinergia de ordem superior	"O grupo supera qualquer subgrupo"	Medida estatística de Riedl para coordenação real.
Ilusão de coordenação	"Parece coordenado"	Aparência de coordenação gerada por maquiagem de prompt, sem sinal mensurável.

Leitura Adicional

Li et al. — Theory of Mind for Multi-Agent Collaboration via Large Language Models — ToM emergente em jogos cooperativos; modos de falha em longos horizontes
Riedl — Emergent Coordination in Multi-Agent Language Models — medição em escala populacional; o prompt de ToM é a condição de sustentação
Premack & Woodruff — Does the chimpanzee have a theory of mind? — a origem de 1978 do conceito de ToM
Baron-Cohen, Leslie, Frith — Does the autistic child have a theory of mind? — o artigo original sobre o teste Sally-Anne (1985)