Phase 16 - Lesson 20
MARL — MADDPG, QMIX, MAPPO
A herança do aprendizado por reforço multiagente (MARL), que ainda fundamenta os sistemas de agentes de LLM em 2026. O MADDPG (Lowe et al., NeurIPS 2017, arXiv:1706.02275) introduziu o padrão de Treinamento Centralizado, Execução Descentralizada (CTDE): cada crítico vê os estados e ações de todos os agentes durante o treinamento; em tempo de execução, apenas os atores locais são executados. Funciona para cenários cooperativos, competitivos e mistos. O QMIX (Rashid et al., ICML 2018, arXiv:1803.11485) realiza a decomposição de valor com uma rede de mistura monotônica; os Qs individuais dos agentes combinam-se em um Q conjunto para que o
argmaxseja distribuído de forma limpa — sendo dominante no StarCraft Multi-Agent Challenge (SMAC). O MAPPO (Yu et al., NeurIPS 2022, arXiv:2103.01955) é o PPO com uma função de valor centralizada; revelou-se "surpreendentemente eficaz" no Particle World, SMAC, Google Research Football e Hanabi com ajuste mínimo. Esses algoritmos fundamentam o treinamento de políticas para equipes de agentes que devem agir de forma descentralizada. O MAPPO é a baseline padrão de MARL cooperativo em 2026. Esta lição constrói cada um a partir de um brinquedo simples de grade (grid-world), fixando essas três ideias na memória muscular antes de iniciarmos o treinamento de agentes de LLM.
Tipo: Learn Linguagens: Python (stdlib, pequenas implementações sem NumPy) Pré-requisitos: Fase 09 (Aprendizado por Reforço), Fase 16 · 09 (Redes Paralelas de Enxame) Tempo: ~90 minutos
O Problema
Os sistemas de agentes de LLM treinam cada vez mais políticas para a coordenação entre agentes: quando delegar, quando agir, qual par chamar. A literatura que descreve como treinar tais políticas é o Aprendizado por Reforço Multiagente (MARL), que antecede a onda de LLMs e possui um pequeno conjunto de algoritmos dominantes.
Ler artigos de MARL sem o vocabulário de padrões é doloroso. Treinamento centralizado com execução descentralizada (CTDE), decomposição de valor e críticos centralizados não são jargões vazios — são respostas específicas a problemas específicos:
- O RL Independente (cada agente aprende sozinho) é não estacionário sob a perspectiva de cada agente individual. Ruim.
- O RL Centralizado (um único agente controla todos) não escala e viola restrições de execução.
- O CTDE oferece o melhor de dois mundos: treina com informações globais e implanta com políticas locais.
Conceito
Três ambientes utilizados nos artigos
- Particle World (multi-agent particle env). Física simples em 2D com tarefas cooperativas/competitivas. O ambiente de teste original do MADDPG.
- StarCraft Multi-Agent Challenge (SMAC). Microgerenciamento cooperativo com observação parcial. O ambiente de teste do QMIX. Ações discretas, estados contínuos.
- Google Research Football, Hanabi, MPE. Baselines do MAPPO.
Ambientes diferentes possuem tipos diferentes de ações e observações. Os algoritmos são escolhidos de acordo.
MADDPG (2017) — o padrão CTDE
Cada agente i tem um ator mu_i(o_i) que mapeia sua própria observação para uma ação. Cada agente também tem um crítico Q_i(x, a_1, ..., a_n) que vê todas as observações e todas as ações durante o treinamento. O ator é atualizado pelo gradiente de política em relação à avaliação do crítico.
actor update: grad_theta_i J = E[grad_theta mu_i(o_i) * grad_a_i Q_i(x, a_1..n) at a_i=mu_i(o_i)]
critic update: TD on Q_i(x, a_1..n) given next-state joint estimate
Por que usar CTDE: no momento do treinamento, conhecemos as ações de todos; usamos isso para reduzir a variância no crítico de cada agente. No momento da implantação, cada agente vê apenas o_i e chama mu_i(o_i).
Modo de falha: os críticos crescem com o número N de agentes (a entrada inclui todas as ações). Não escala além de ~10 agentes sem aproximações.
QMIX (2018) — decomposição de valor
Exclusivo para fins cooperativos. A recompensa global é a soma de uma função monotônica dos valores Q de cada agente:
Q_tot(tau, a) = f(Q_1(tau_1, a_1), ..., Q_n(tau_n, a_n)), df/dQ_i >= 0
A monotonicidade garante que o argmax_a Q_tot possa ser computado por cada agente escolhendo argmax_{a_i} Q_i de forma independente. Essa é exatamente a propriedade de execução descentralizada de que você precisa. Durante o treinamento, uma rede de mistura produz Q_tot a partir dos Qs de cada agente.
Por que o QMIX vence no SMAC: o micromerenciamento cooperativo no StarCraft possui agentes homogêneos, observações locais e recompensa global — um encaixe perfeito para a decomposição de valor.
Modo de falha: a restrição de monotonicidade é limitante; algumas tarefas possuem estruturas de recompensa que não são decomponíveis de forma monotônica (um agente se sacrificando pela equipe). Extensões (QTRAN, QPLEX) relaxam essa restrição.
MAPPO (2022) — o padrão esquecido
PPO Multiagente: PPO com uma função de valor centralizada. Cada agente possui sua própria política; todos os agentes compartilham (ou têm individualmente) funções de valor que enxergam o estado completo. Yu et al. 2022 compararam o MAPPO com o MADDPG, o QMIX e suas extensões em cinco benchmarks e descobriram:
- O MAPPO iguala ou supera os métodos de MARL off-policy no Particle World, SMAC, Google Research Football, Hanabi e MPE.
- Exige ajuste mínimo de hiperparâmetros.
- Treinamento estável; reproduzível em diferentes sementes.
A comunidade subestimou o MARL on-policy até a publicação desse artigo. Em 2026, o MAPPO é a baseline padrão para MARL cooperativo; qualquer método novo deve superá-lo.
Por que engenheiros de agentes de LLM devem se importar
Três aplicações diretas:
- Treinamento de roteadores. Um meta-agente escolhe qual subagente tratará de uma tarefa. Esse é um problema de MARL com N subagentes descentralizados e um roteador centralizado. O MAPPO se encaixa perfeitamente aqui.
- Emergência de papéis. Em simulações de agentes generativos, treinar os agentes para adotar papéis complementares ao longo do tempo é um problema de MARL disfarçado. A decomposição de valor no estilo QMIX força a complementaridade por design.
- Uso multiagente de ferramentas. Quando os agentes compartilham ferramentas e competem por orçamento, treiná-los via CTDE produz políticas locais implantáveis que respeitam as restrições de recursos.
Ressalva prática: em 2026, a maioria dos sistemas de agentes de LLMs em produção ajusta suas políticas por meio de prompts (prompting) em vez de treiná-las. O MARL entra em cena quando você tem (a) muitos dados de interação, (b) um sinal de recompensa claro e (c) disposição para investir em infraestrutura de treinamento.
CTDE como padrão de design além do RL
Mesmo sem treinamento, o CTDE é um padrão arquitetônico útil:
- Durante o design, assuma visibilidade completa da equipe.
- Em tempo de execução, force a execução descentralizada: cada agente vê apenas
o_i.
O padrão força você a manter o estado de cada agente explícito e a pensar na observabilidade parcial desde o início. Muitos sistemas multiagente em produção assumem silenciosamente estado compartilhado em todos os lugares — a disciplina de CTDE evita isso.
O problema da não estacionaridade
Quando múltiplos agentes aprendem simultaneamente, o ambiente de cada agente (que inclui as políticas dos outros) torna-se não estacionário. As demonstrações clássicas de RL para agente único quebram. Os algoritmos de MARL nesta lição resolvem isso da seguinte forma:
- MADDPG: o crítico global vê todas as ações, de modo que sua estimativa de valor permanece estacionária.
- QMIX: a decomposição de valor move o aprendizado para um espaço de Q conjunto onde a otimalidade é bem definida.
- MAPPO: a função de valor centralizada atenua a variância decorrente das mudanças nas políticas dos outros agentes.
Em sistemas de agentes de LLM, a não estacionaridade se manifesta como: "meu agente funcionava no mês passado; agora que aquele outro agente upstream mudou, o meu passou a se comportar mal". Treinar MARL com CTDE é a correção teórica adequada; correções no nível do prompt são mais rápidas, mas menos duradouras.
O que esta lição NÃO cobre
O treinamento de redes reais é um tópico da Fase 09. Esta lição cria versões de políticas roteirizadas que demonstram os padrões CTDE, decomposição de valor e valor centralizado sem atualizações de gradiente. O objetivo é internalizar os padrões antes de utilizar uma biblioteca completa de MARL (PyMARL, MARLlib, RLlib multi-agent).
Build It
code/main.py implementa três demonstrações de padrões, todas em um brinquedo cooperativo simples de grade de 2 agentes:
- Ambiente: 2 agentes em uma grade de 4x4, uma pastilha de recompensa. Recompensa = 1 se qualquer agente atingir a pastilha; a tarefa termina.
IndependentAgents— cada agente trata os outros como parte do ambiente. Baseline.MADDPGStyle— o crítico centralizado calcula um valor conjunto; as políticas de atores se atualizam a partir dele. Melhoria de política roteirizada.QMIXStyle— decomposição de valor com um misturador monotônico.MAPPOStyle— função de valor centralizada; as políticas atualizam-se em relação à baseline compartilhada.
Todos os quatro executam os mesmos episódios e relatam a média de passos até o objetivo. As variantes de CTDE convergem para caminhos mais curtos do que a baseline independente.
Execute:
python3 code/main.py
Saída esperada: agentes independentes demoram ~6 passos em média; variantes de CTDE convergem para ~3,5 passos (o ideal para a grade 4x4 é 3). A diferença de padrão aparece mesmo com políticas roteirizadas.
Use It
outputs/skill-marl-picker.md é uma habilidade que escolhe um algoritmo de MARL para uma tarefa multiagente fornecida: cooperativa vs competitiva, homogênea vs heterogênea, tipo de espaço de ação, escala, sinal de recompensa.
Ship It
MARL em produção é raro. Quando decidir usá-lo:
- Comece com MAPPO. O artigo de 2022 estabeleceu isso como linha de base; reproduzi-lo primeiro economiza semanas de perseguição a métodos mais complexos.
- Registre o fluxo de observações e ações de cada agente. Depurar MARL sem rastros por agente é impossível.
- Separe o código de treinamento do código de execução. O CTDE é uma disciplina; faça o caminho de execução realmente ver apenas
o_i. - Aviso sobre modelagem de recompensa (reward shaping). O MARL é extremamente sensível ao design da recompensa. Um único bug de coordenação no design e os agentes aprenderão a explorá-lo. Execute testes adversários.
- Para agentes de LLM, considere políticas no nível de prompt primeiro. Só invista em treinamento de MARL quando dados de interação + sinal de recompensa + infraestrutura estiverem todos presentes.
Exercícios
- Execute
code/main.py. Meça a lacuna de passos até o objetivo entre agentes independentes e no estilo MAPPO. A lacuna cresce ou diminui em uma grade de 6x6? - Implemente uma variante competitiva: dois agentes, uma pastilha, apenas o primeiro a chegar recebe a recompensa. Qual padrão lida com a competição de forma limpa? O MADDPG historicamente.
- Leia o MADDPG (arXiv:1706.02275) Seção 3. Implemente a regra de atualização do crítico exatamente em pseudocódigo com suas próprias palavras.
- Leia o MAPPO (arXiv:2103.01955). Por que os autores argumentam que o valor centralizado + PPO supera os métodos de MARL off-policy nos seus benchmarks? Liste as três afirmações mais fortes.
- Aplique o CTDE como padrão de design em um sistema hipotético de agentes de LLM (por exemplo, agente de pesquisa + sumarizador + codificador). Quais são as informações conjuntas disponíveis em tempo de design que não estão disponíveis em tempo de execução?
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| MARL | "RL Multiagente" | Aprendizado por reforço voltado a sistemas multiagente. |
| CTDE | "Treinamento Centralizado, Execução Descentralizada" | Treinar com informações globais; implantar com políticas locais. |
| MADDPG | "DDPG Multiagente" | CTDE com crítico por agente visualizando todas as observações + ações. |
| QMIX | "Decomposição de valor" | Mistura monotônica de Qs por agente. Cooperativo. |
| MAPPO | "PPO Multiagente" | PPO com função de valor centralizada. Baseline padrão em 2026. |
| Decomposição de valor | "Soma dos Qs individuais" | Q conjunto representado como uma função monotônica dos Qs por agente. |
| Não estacionaridade | "Alvos móveis" | O ambiente de cada agente muda à medida que os outros aprendem. O problema central do MARL. |
| On-policy / off-policy | "Aprende da política atual / replay" | PPO é on-policy (MAPPO); DDPG e Q-learning são off-policy. |
| SMAC | "StarCraft Multi-Agent Challenge" | Benchmark de micromerenciamento cooperativo; o ambiente nativo do QMIX. |
Leitura Adicional
- Lowe et al. — Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments — MADDPG; NeurIPS 2017
- Rashid et al. — QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning — QMIX; ICML 2018
- Yu et al. — The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games — MAPPO; NeurIPS 2022
- Post do blog BAIR sobre MAPPO — enquadramento acessível dos resultados do MAPPO
- Repositório SMAC — StarCraft Multi-Agent Challenge