Phase 16 - Lesson 20

MARL — MADDPG, QMIX, MAPPO

A herança do aprendizado por reforço multiagente (MARL), que ainda fundamenta os sistemas de agentes de LLM em 2026. O MADDPG (Lowe et al., NeurIPS 2017, arXiv:1706.02275) introduziu o padrão de Treinamento Centralizado, Execução Descentralizada (CTDE): cada crítico vê os estados e ações de todos os agentes durante o treinamento; em tempo de execução, apenas os atores locais são executados. Funciona para cenários cooperativos, competitivos e mistos. O QMIX (Rashid et al., ICML 2018, arXiv:1803.11485) realiza a decomposição de valor com uma rede de mistura monotônica; os Qs individuais dos agentes combinam-se em um Q conjunto para que o argmax seja distribuído de forma limpa — sendo dominante no StarCraft Multi-Agent Challenge (SMAC). O MAPPO (Yu et al., NeurIPS 2022, arXiv:2103.01955) é o PPO com uma função de valor centralizada; revelou-se "surpreendentemente eficaz" no Particle World, SMAC, Google Research Football e Hanabi com ajuste mínimo. Esses algoritmos fundamentam o treinamento de políticas para equipes de agentes que devem agir de forma descentralizada. O MAPPO é a baseline padrão de MARL cooperativo em 2026. Esta lição constrói cada um a partir de um brinquedo simples de grade (grid-world), fixando essas três ideias na memória muscular antes de iniciarmos o treinamento de agentes de LLM.

Tipo: Learn Linguagens: Python (stdlib, pequenas implementações sem NumPy) Pré-requisitos: Fase 09 (Aprendizado por Reforço), Fase 16 · 09 (Redes Paralelas de Enxame) Tempo: ~90 minutos

O Problema

Os sistemas de agentes de LLM treinam cada vez mais políticas para a coordenação entre agentes: quando delegar, quando agir, qual par chamar. A literatura que descreve como treinar tais políticas é o Aprendizado por Reforço Multiagente (MARL), que antecede a onda de LLMs e possui um pequeno conjunto de algoritmos dominantes.

Ler artigos de MARL sem o vocabulário de padrões é doloroso. Treinamento centralizado com execução descentralizada (CTDE), decomposição de valor e críticos centralizados não são jargões vazios — são respostas específicas a problemas específicos:

O RL Independente (cada agente aprende sozinho) é não estacionário sob a perspectiva de cada agente individual. Ruim.
O RL Centralizado (um único agente controla todos) não escala e viola restrições de execução.
O CTDE oferece o melhor de dois mundos: treina com informações globais e implanta com políticas locais.

Conceito

Três ambientes utilizados nos artigos

Particle World (multi-agent particle env). Física simples em 2D com tarefas cooperativas/competitivas. O ambiente de teste original do MADDPG.
StarCraft Multi-Agent Challenge (SMAC). Microgerenciamento cooperativo com observação parcial. O ambiente de teste do QMIX. Ações discretas, estados contínuos.
Google Research Football, Hanabi, MPE. Baselines do MAPPO.

Ambientes diferentes possuem tipos diferentes de ações e observações. Os algoritmos são escolhidos de acordo.

MADDPG (2017) — o padrão CTDE

Cada agente i tem um ator mu_i(o_i) que mapeia sua própria observação para uma ação. Cada agente também tem um crítico Q_i(x, a_1, ..., a_n) que vê todas as observações e todas as ações durante o treinamento. O ator é atualizado pelo gradiente de política em relação à avaliação do crítico.

actor update:    grad_theta_i J = E[grad_theta mu_i(o_i) * grad_a_i Q_i(x, a_1..n) at a_i=mu_i(o_i)]
critic update:   TD on Q_i(x, a_1..n) given next-state joint estimate

Por que usar CTDE: no momento do treinamento, conhecemos as ações de todos; usamos isso para reduzir a variância no crítico de cada agente. No momento da implantação, cada agente vê apenas o_i e chama mu_i(o_i).

Modo de falha: os críticos crescem com o número N de agentes (a entrada inclui todas as ações). Não escala além de ~10 agentes sem aproximações.

QMIX (2018) — decomposição de valor

Exclusivo para fins cooperativos. A recompensa global é a soma de uma função monotônica dos valores Q de cada agente:

Q_tot(tau, a) = f(Q_1(tau_1, a_1), ..., Q_n(tau_n, a_n)),   df/dQ_i >= 0

A monotonicidade garante que o argmax_a Q_tot possa ser computado por cada agente escolhendo argmax_{a_i} Q_i de forma independente. Essa é exatamente a propriedade de execução descentralizada de que você precisa. Durante o treinamento, uma rede de mistura produz Q_tot a partir dos Qs de cada agente.

Por que o QMIX vence no SMAC: o micromerenciamento cooperativo no StarCraft possui agentes homogêneos, observações locais e recompensa global — um encaixe perfeito para a decomposição de valor.

Modo de falha: a restrição de monotonicidade é limitante; algumas tarefas possuem estruturas de recompensa que não são decomponíveis de forma monotônica (um agente se sacrificando pela equipe). Extensões (QTRAN, QPLEX) relaxam essa restrição.

MAPPO (2022) — o padrão esquecido

PPO Multiagente: PPO com uma função de valor centralizada. Cada agente possui sua própria política; todos os agentes compartilham (ou têm individualmente) funções de valor que enxergam o estado completo. Yu et al. 2022 compararam o MAPPO com o MADDPG, o QMIX e suas extensões em cinco benchmarks e descobriram:

O MAPPO iguala ou supera os métodos de MARL off-policy no Particle World, SMAC, Google Research Football, Hanabi e MPE.
Exige ajuste mínimo de hiperparâmetros.
Treinamento estável; reproduzível em diferentes sementes.

A comunidade subestimou o MARL on-policy até a publicação desse artigo. Em 2026, o MAPPO é a baseline padrão para MARL cooperativo; qualquer método novo deve superá-lo.

Por que engenheiros de agentes de LLM devem se importar

Três aplicações diretas:

Treinamento de roteadores. Um meta-agente escolhe qual subagente tratará de uma tarefa. Esse é um problema de MARL com N subagentes descentralizados e um roteador centralizado. O MAPPO se encaixa perfeitamente aqui.
Emergência de papéis. Em simulações de agentes generativos, treinar os agentes para adotar papéis complementares ao longo do tempo é um problema de MARL disfarçado. A decomposição de valor no estilo QMIX força a complementaridade por design.
Uso multiagente de ferramentas. Quando os agentes compartilham ferramentas e competem por orçamento, treiná-los via CTDE produz políticas locais implantáveis que respeitam as restrições de recursos.

Ressalva prática: em 2026, a maioria dos sistemas de agentes de LLMs em produção ajusta suas políticas por meio de prompts (prompting) em vez de treiná-las. O MARL entra em cena quando você tem (a) muitos dados de interação, (b) um sinal de recompensa claro e (c) disposição para investir em infraestrutura de treinamento.

CTDE como padrão de design além do RL

Mesmo sem treinamento, o CTDE é um padrão arquitetônico útil:

Durante o design, assuma visibilidade completa da equipe.
Em tempo de execução, force a execução descentralizada: cada agente vê apenas o_i.

O padrão força você a manter o estado de cada agente explícito e a pensar na observabilidade parcial desde o início. Muitos sistemas multiagente em produção assumem silenciosamente estado compartilhado em todos os lugares — a disciplina de CTDE evita isso.

O problema da não estacionaridade

Quando múltiplos agentes aprendem simultaneamente, o ambiente de cada agente (que inclui as políticas dos outros) torna-se não estacionário. As demonstrações clássicas de RL para agente único quebram. Os algoritmos de MARL nesta lição resolvem isso da seguinte forma:

MADDPG: o crítico global vê todas as ações, de modo que sua estimativa de valor permanece estacionária.
QMIX: a decomposição de valor move o aprendizado para um espaço de Q conjunto onde a otimalidade é bem definida.
MAPPO: a função de valor centralizada atenua a variância decorrente das mudanças nas políticas dos outros agentes.

Em sistemas de agentes de LLM, a não estacionaridade se manifesta como: "meu agente funcionava no mês passado; agora que aquele outro agente upstream mudou, o meu passou a se comportar mal". Treinar MARL com CTDE é a correção teórica adequada; correções no nível do prompt são mais rápidas, mas menos duradouras.

O que esta lição NÃO cobre

O treinamento de redes reais é um tópico da Fase 09. Esta lição cria versões de políticas roteirizadas que demonstram os padrões CTDE, decomposição de valor e valor centralizado sem atualizações de gradiente. O objetivo é internalizar os padrões antes de utilizar uma biblioteca completa de MARL (PyMARL, MARLlib, RLlib multi-agent).

Build It

code/main.py implementa três demonstrações de padrões, todas em um brinquedo cooperativo simples de grade de 2 agentes:

Ambiente: 2 agentes em uma grade de 4x4, uma pastilha de recompensa. Recompensa = 1 se qualquer agente atingir a pastilha; a tarefa termina.
IndependentAgents — cada agente trata os outros como parte do ambiente. Baseline.
MADDPGStyle — o crítico centralizado calcula um valor conjunto; as políticas de atores se atualizam a partir dele. Melhoria de política roteirizada.
QMIXStyle — decomposição de valor com um misturador monotônico.
MAPPOStyle — função de valor centralizada; as políticas atualizam-se em relação à baseline compartilhada.

Todos os quatro executam os mesmos episódios e relatam a média de passos até o objetivo. As variantes de CTDE convergem para caminhos mais curtos do que a baseline independente.

Execute:

python3 code/main.py

Saída esperada: agentes independentes demoram ~6 passos em média; variantes de CTDE convergem para ~3,5 passos (o ideal para a grade 4x4 é 3). A diferença de padrão aparece mesmo com políticas roteirizadas.

Use It

outputs/skill-marl-picker.md é uma habilidade que escolhe um algoritmo de MARL para uma tarefa multiagente fornecida: cooperativa vs competitiva, homogênea vs heterogênea, tipo de espaço de ação, escala, sinal de recompensa.

Ship It

MARL em produção é raro. Quando decidir usá-lo:

Comece com MAPPO. O artigo de 2022 estabeleceu isso como linha de base; reproduzi-lo primeiro economiza semanas de perseguição a métodos mais complexos.
Registre o fluxo de observações e ações de cada agente. Depurar MARL sem rastros por agente é impossível.
Separe o código de treinamento do código de execução. O CTDE é uma disciplina; faça o caminho de execução realmente ver apenas o_i.
Aviso sobre modelagem de recompensa (reward shaping). O MARL é extremamente sensível ao design da recompensa. Um único bug de coordenação no design e os agentes aprenderão a explorá-lo. Execute testes adversários.
Para agentes de LLM, considere políticas no nível de prompt primeiro. Só invista em treinamento de MARL quando dados de interação + sinal de recompensa + infraestrutura estiverem todos presentes.

Exercícios

Execute code/main.py. Meça a lacuna de passos até o objetivo entre agentes independentes e no estilo MAPPO. A lacuna cresce ou diminui em uma grade de 6x6?
Implemente uma variante competitiva: dois agentes, uma pastilha, apenas o primeiro a chegar recebe a recompensa. Qual padrão lida com a competição de forma limpa? O MADDPG historicamente.
Leia o MADDPG (arXiv:1706.02275) Seção 3. Implemente a regra de atualização do crítico exatamente em pseudocódigo com suas próprias palavras.
Leia o MAPPO (arXiv:2103.01955). Por que os autores argumentam que o valor centralizado + PPO supera os métodos de MARL off-policy nos seus benchmarks? Liste as três afirmações mais fortes.
Aplique o CTDE como padrão de design em um sistema hipotético de agentes de LLM (por exemplo, agente de pesquisa + sumarizador + codificador). Quais são as informações conjuntas disponíveis em tempo de design que não estão disponíveis em tempo de execução?

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
MARL	"RL Multiagente"	Aprendizado por reforço voltado a sistemas multiagente.
CTDE	"Treinamento Centralizado, Execução Descentralizada"	Treinar com informações globais; implantar com políticas locais.
MADDPG	"DDPG Multiagente"	CTDE com crítico por agente visualizando todas as observações + ações.
QMIX	"Decomposição de valor"	Mistura monotônica de Qs por agente. Cooperativo.
MAPPO	"PPO Multiagente"	PPO com função de valor centralizada. Baseline padrão em 2026.
Decomposição de valor	"Soma dos Qs individuais"	Q conjunto representado como uma função monotônica dos Qs por agente.
Não estacionaridade	"Alvos móveis"	O ambiente de cada agente muda à medida que os outros aprendem. O problema central do MARL.
On-policy / off-policy	"Aprende da política atual / replay"	PPO é on-policy (MAPPO); DDPG e Q-learning são off-policy.
SMAC	"StarCraft Multi-Agent Challenge"	Benchmark de micromerenciamento cooperativo; o ambiente nativo do QMIX.

Leitura Adicional

Lowe et al. — Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments — MADDPG; NeurIPS 2017
Rashid et al. — QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning — QMIX; ICML 2018
Yu et al. — The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games — MAPPO; NeurIPS 2022
Post do blog BAIR sobre MAPPO — enquadramento acessível dos resultados do MAPPO
Repositório SMAC — StarCraft Multi-Agent Challenge