Phase 16 - Lesson 21

Economias de Agentes, Incentivos de Token, Reputação

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Agentes autônomos de longo horizonte (a curva de trabalho de 1 a 8 horas da METR) precisam de agência econômica. A stack de 5 camadas emergente é: DePIN (computação física) → Identidade (DIDs da W3C + capital de reputação) → Cognição (RAG + MCP) → Liquidação (abstração de conta) → Governança (DAOs Agênticas). As redes de incentivo a agentes em produção incluem a Bittensor (sub-redes TAO recompensam modelos específicos de tarefas), a Fetch.ai / ASI Alliance (LLM ASI-1 Mini + token FET) e a Gonka (PoW baseado em transformers que realoca a computação para tarefas de IA produtivas). Trabalhos acadêmicos: a proposta LaMAS descentralizada do AAMAS 2025 usa atribuição de crédito por valor de Shapley para recompensar de forma justa os agentes contribuintes; o artigo do Google Research "Mechanism design for large language models" propõe leilões de tokens com pagamento de segundo preço sob agregação monotônica. Esta lição constrói um mercado de agentes minimalista, aplica a atribuição de crédito por valor de Shapley a um pipeline multiagente e executa um leilão de tokens de segundo preço para fixar o funcionamento da teoria dos jogos de forma concreta.

Tipo: Learn Linguagens: Python (stdlib) Pré-requisitos: Fase 16 · 16 (Negociação e Barganha), Fase 16 · 09 (Redes Paralelas de Enxame) Tempo: ~75 minutos

O Problema

Os sistemas multiagente tornam-se complexos quando os agentes produzem valor em conjunto, mas precisam ser recompensados individualmente. Mecanismos clássicos — divisão igualitária, o último a contribuir leva tudo — são injustos ou fáceis de trapacear (gameable). A recompensa baseada em coalizão via valores de Shapley é justa por construção, mas cara para computar. A literatura de 2025-2026 propõe aproximações úteis: amostragem de Shapley, leilões de agregação monotônica e reputação on-chain que se acumula a partir de contribuições confirmadas.

Além da atribuição de crédito, o campo evoluiu para agentes econômicos reais: o TAO da Bittensor recompensa a computação de mineração para ajustar modelos específicos de sub-redes, o Fetch.ai/ASI recompensa o uso do LLM ASI-1 Mini com tokens FET, e a Gonka realoca a prova de trabalho (proof-of-work) baseada em transformers para tarefas de IA produtivas. Agentes que realizam transações de forma autônoma existem hoje; a questão é como alinhar os incentivos.

Esta lição trata as economias de agentes como uma família de problemas específicos — atribuição de crédito, design de mecanismos e reputação — e constrói cada um com o mínimo de matemática para que as ideias fiquem claras.

Conceito

A stack de economia de agentes de 5 camadas

  1. DePIN (computação física). Infraestrutura descentralizada que aluga GPU, armazenamento e largura de banda. Sub-redes Bittensor, Render Network, Akash. Não é específico para agentes; os agentes a utilizam.
  2. Identidade. Identificadores Descentralizados (DIDs) da W3C conferem a cada agente um ID durável independente de qualquer plataforma. A reputação é vinculada ao DID. O Agent Network Protocol (ANP) usa o DID como camada de descoberta.
  3. Cognição. O loop de raciocínio do agente: LLM + RAG + MCP. Isso é o que as outras fases constroem.
  4. Liquidação. A abstração de conta (ERC-4337) permite que os agentes paguem taxas de gás de seus próprios saldos sem reter ETH. Os agentes podem pagar por serviços, uns aos outros ou por computação.
  5. Governança. DAOs Agênticas: estruturas de governança onde humanos e agentes votam em mudanças no protocolo, com poder de voto atrelado à reputação.

Nem todo sistema em produção usa todas as cinco camadas. A Bittensor usa 1, 2, parcialmente 3, parcialmente 4 e nenhuma da camada 5. Os agentes da OpenAI não usam nenhuma, exceto a 3. A stack é um mapa de referência, não um requisito obrigatório.

Bittensor, Fetch.ai, Gonka — o que roda na prática

Bittensor (TAO). As sub-redes são voltadas a tarefas especializadas (modelagem de linguagem, geração de imagens, previsão). Os mineradores enviam saídas de modelos. Os validadores as classificam; a pontuação ponderada pelo stake distribui as recompensas em TAO. Cada sub-rede possui sua própria avaliação. A lição econômica: pague pela qualidade da saída de tarefas específicas, não pela computação usada.

Fetch.ai / ASI Alliance. O LLM ASI-1 Mini roda na rede da Fetch.ai; os usuários pagam tokens FET pela inferência. A narrativa de agentes como pares (peers) é forte aqui: um agente na Fetch pode chamar outro para uma tarefa e pagar em FET.

Gonka. Prova de trabalho baseada em transformers: o "trabalho" consiste nas passagens diretas (forward passes) de um transformer. Os mineradores ganham executando tarefas de inferência que possuem saídas corretas conhecidas (a partir de dados de treinamento). PoW produtivo em termos de recursos em vez de PoW baseado em hash.

As três redes são de nível de produção em abril de 2026. A distribuição de retornos difere. A Bittensor recompensa a qualidade em relação aos validadores de sub-redes; a Fetch recompensa a utilidade medida pelos usuários pagantes; a Gonka recompensa o trabalho de inferência verificável.

Atribuição de crédito por valor de Shapley

Três agentes colaboram em uma tarefa. O resultado atinge uma pontuação de 0,8. Quem contribuiu com o quê?

Valor de Shapley: a única alocação de crédito que satisfaz quatro axiomas (eficiência, simetria, linearidade e jogador nulo). Para o agente i:

shapley(i) = (1/N!) * sum over all orderings O of (v(S_i_O ∪ {i}) - v(S_i_O))

onde S_i_O é o conjunto de agentes antes de i na ordenação O. Na prática: enumere todas as permutações, registre a contribuição marginal de cada agente em cada permutação e faça a média.

Para N=3 agentes, existem 6 permutações. Para N=10, são 3,6 milhões — de modo que, na prática, você amostra ordenações em vez de enumerá-las.

Leilão de segundo preço para agregação

O Google Research ("Mechanism design for large language models") propõe leilões de tokens de segundo preço para agregar saídas de LLMs. Configuração: N agentes propõem, cada um, uma conclusão; cada um tem um valor privado por ser selecionado. O leiloeiro escolhe a proposta de maior valor e paga o segundo maior valor. Sob agregação monotônica (o valor depende de qual proposta é escolhida, não de quantas foram ofertadas), isso é honesto (truthful) — os agentes dão lances que refletem seu valor real.

Por que isso importa para sistemas de LLMs: você pode terceirizar tarefas de conclusão para múltiplos agentes com preços diferentes; o leilão escolhe o melhor + paga de forma justa, e os agentes não têm incentivos para fraudar os valores declarados.

Capital de reputação

Um score de reputação vinculado a um DID acumula-se a partir de contribuições confirmadas. Uma regra simples de atualização:

rep(i, t+1) = alpha * rep(i, t) + (1 - alpha) * contribution_quality(i, t)

Com o fator de decaimento alpha próximo a 1. A reputação:

  • É barata de ler para decisões de roteamento ("enviar tarefas difíceis para agentes de alta reputação").
  • É cara de forjar (acumula-se ao longo do tempo, vinculada ao DID).
  • Pode ser cortada (slashed): contribuições que falham na verificação subtraem pontos.

LaMAS descentralizada do AAMAS 2025

A proposta LaMAS (AAMAS 2025) combina: identidade DID, atribuição de crédito por valor de Shapley e um mecanismo simples de leilão. A principal afirmação: descentralizar a etapa de atribuição de crédito torna o sistema auditável e imune à manipulação por um único ponto.

Onde a economia falha

  • Manipulação do oráculo de preço. Se a função de crédito puder ser burlada, os agentes a burlarão. Cada mecanismo precisa de um teste adversário.
  • Ataques Sybil. Um operador cria N agentes falsos para inflar sua própria contribuição. DIDs dificultam, mas não impedem isso; o custo de falsificação da reputação é a mitigação.
  • Custo de verificação. A atribuição de crédito é tão justa quanto o verificador. Se a verificação for barata (um LLM pequeno), pode ser burlada; se for cara (um painel humano), o sistema não escala.
  • Insegurança regulatória. As economias de agentes cruzam com a regulação financeira. Bittensor, Fetch e Gonka operam em áreas legais cinzentas em algumas jurisdições em 2026.

Quando as economias de agentes fazem sentido

  • Redes abertas com operadores heterogêneos. Nenhuma equipe única controla todos os agentes.
  • Saídas verificáveis. Sem verificação, a atribuição de crédito é um palpite.
  • Fluxos de trabalho de longo horizonte. Tarefas de disparo único (one-shot) não se beneficiam do acúmulo de reputação.
  • Pagamentos tokenizados são legalmente viáveis na sua jurisdição.

Em sistemas corporativos fechados, a economia dá lugar a uma alocação mais simples (gerentes atribuem o trabalho, as métricas são internas). A literatura econômica aplica-se principalmente a redes abertas.

Build It

code/main.py implementa:

  • shapley(value_fn, agents) — computação exata de Shapley por enumeração para N pequeno.
  • second_price_auction(bids) — mecanismo honesto (Vickrey); o vencedor paga o segundo lance mais alto.
  • Reputation — reputação vinculada ao DID com decaimento exponencial e slashing.
  • Demonstração 1: três agentes colaboram, o valor exato de Shapley atribui o crédito.
  • Demonstração 2: cinco agentes disputam uma vaga de tarefa; o leilão de segundo preço escolhe o vencedor + pagamento.
  • Demonstração 3: 100 rodadas de atribuição de tarefas a agentes com reputação heterogênea; o roteamento ponderado por reputação supera o aleatório.

Execute:

python3 code/main.py

Saída esperada: valores de Shapley para cada agente; resultado do leilão mostrando o equilíbrio de lances honestos; roteamento ponderado por reputação mostrando ganho de qualidade de 10-20% em relação ao aleatório após o aquecimento.

Use It

outputs/skill-economy-designer.md projeta uma economia mínima de agentes: escolha da camada de identidade, mecanismo de atribuição de crédito, mecanismo de pagamento e regra de reputação.

Ship It

Executando uma economia de agentes em 2026:

  • Comece com reputação, não com tokens. A reputação é barata de implementar e valiosa por si só; os tokens adicionam complexidade legal e econômica.
  • Verifique antes de recompensar. Nunca distribua crédito sem uma etapa de verificação independente. A qualidade autoavaliada abre margem para fraudes Sybil.
  • Use amostragem de Shapley, não o cálculo exato. Mostre de 100 a 1000 ordenações; a enumeração exata não escala.
  • Limite o fator de decaimento e estabeleça um piso de reputação. O decaimento ilimitado prejudica contribuidores legítimos; o decaimento lento demais recompensa agentes obsoletos com alta reputação.
  • Audite os mecanismos de forma adversária. Execute cenários de red-team antes de abrir a rede. Todo mecanismo possui sua própria teoria dos jogos; você quer encontrar as brechas antes dos atacantes.

Exercícios

  1. Execute code/main.py. Confirme que os valores de Shapley somam o valor total (axioma da eficiência). Altere a função de valor; as alocações de Shapley mudam na direção esperada?
  2. Implemente a amostragem de Shapley (Monte Carlo sobre K ordenações). Como K afeta a precisão da aproximação? Compare com o cálculo exato para N=4.
  3. Implemente uma etapa de formação de coalizão antes do leilão: os agentes podem se fundir em equipes e dar lances como uma unidade. Quais coalizões se formam? O resultado é Pareto-superior em relação aos lances individuais?
  4. Leia o post de design de mecanismos do Google Research. Identifique uma premissa que, se violada, quebra a honestidade do leilão. Como seria esse modo de falha em um cenário de LLM?
  5. Leia o artigo do LaMAS descentralizado do AAMAS 2025. Implemente a etapa de Shapley deles sobre 10 agentes em uma tarefa sintética. Quanto tempo leva a computação exata? Quão próxima a amostragem chega com 100 sorteios?

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
DePIN "Infraestrutura física descentralizada" Computação/armazenamento/largura de banda incentivados por token. Bittensor, Akash, Render.
DID "Identificador descentralizado" Especificação da W3C para IDs portáteis. A reputação do agente vincula-se ao DID, não a uma plataforma.
ERC-4337 "Abstração de conta" Contas de contrato que podem patrocinar gás, habilitando pagamentos por agentes.
Valor de Shapley "Atribuição justa de crédito" Alocação única que satisfaz eficiência, simetria, linearidade e nulidade.
Leilão de segundo preço "Leilão Vickrey" Mecanismo honesto: o vencedor paga o segundo lance mais alto. Compatível com agregação monotônica.
Capital de reputação "Pontuação acumulada de qualidade" Score vinculado ao DID a partir de contribuições confirmadas; decai com o tempo.
DAO Agêntica "Agentes + humanos governam" DAO com agentes votantes como cidadãos de primeira classe, com poder de voto vinculado à reputação.
TAO / FET / Créditos de GPU "Denominações de tokens" TAO da Bittensor, FET da Fetch.ai, vários tokens DePIN.

Leitura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).