Phase 16 - Lesson 21

Economías de Agentes, Incentivos de Token, Reputación

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Los agentes autónomos de largo plazo (la curva de trabajo de 1 a 8 horas de METR) necesitan agencia económica. La stack de 5 capas emergente es: DePIN (computación física) → Identidad (DIDs de W3C + capital de reputación) → Cognición (RAG + MCP) → Liquidación (abstracción de cuenta) → Gobernanza (DAOs Agénticas). Las redes de incentivos para agentes en producción incluyen Bittensor (las subredes TAO recompensan modelos específicos de tareas), Fetch.ai / ASI Alliance (LLM ASI-1 Mini + token FET) y Gonka (PoW basado en transformers que reasigna la computación a tareas de IA productivas). Trabajos académicos: la propuesta LaMAS descentralizada de AAMAS 2025 utiliza la atribución de crédito por valor de Shapley para recompensar de manera justa a los agentes contribuyentes; el artículo de Google Research "Mechanism design for large language models" propone subastas de tokens con pago de segundo precio bajo agregación monótona. Esta lección construye un mercado de agentes mínimo, aplica la atribución de crédito por valor de Shapley a un pipeline multiagente y ejecuta una subasta de tokens de segundo precio para que la lógica de la teoría de juegos se comprenda de forma concreta.

Tipo: Learn Lenguajes: Python (stdlib) Prerrequisitos: Fase 16 · 16 (Negociación y Regateo), Fase 16 · 09 (Redes Paralelas de Enjambre) Tiempo: ~75 minutos

El Problema

Los sistemas multiagente se complican cuando los agentes producen valor de forma conjunta pero necesitan ser recompensados individualmente. Los mecanismos clásicos (reparto equitativo, el último en contribuir se lo lleva todo) son injustos o fáciles de trampear (gameable). La recompensa basada en coaliciones mediante valores de Shapley es justa por construcción, pero costosa de calcular. La literatura de 2025-2026 propone aproximaciones útiles: muestreo de Shapley, subastas de agregación monótona y reputación on-chain que se acumula a partir de contribuciones confirmadas.

Más allá de la atribución de crédito, el campo ha evolucionado hacia agentes económicos reales: el TAO de Bittensor recompensa la computación de minería para ajustar modelos específicos de subredes, Fetch.ai/ASI recompensa el uso de LLM ASI-1 Mini con tokens FET, y Gonka reasigna la prueba de trabajo (proof-of-work) basada en transformers hacia tareas de IA productivas. Los agentes que realizan transacciones de forma autónoma existen hoy en día; la cuestión es cómo alinear los incentivos.

Esta lección trata las economías de agentes como una familia de problemas específicos (atribución de crédito, diseño de mecanismos y reputación) y construye cada uno con el mínimo de matemáticas para que las ideas se entiendan.

Concepto

La stack de economía de agentes de 5 capas

  1. DePIN (computación física). Infraestructura descentralizada que alquila GPU, almacenamiento y ancho de banda. Subredes de Bittensor, Render Network, Akash. No es específico de los agentes; los agentes lo usan.
  2. Identidad. Los Identificadores Descentralizados (DIDs) de W3C le dan a cada agente un ID duradero independiente de cualquier plataforma. La reputación se vincula al DID. El Agent Network Protocol (ANP) utiliza el DID como capa de descubrimiento.
  3. Cognición. El bucle de razonamiento del agente: LLM + RAG + MCP. Esto es lo que construyen las otras fases.
  4. Liquidación. La abstracción de cuenta (ERC-4337) permite a los agentes pagar el gas de sus propios saldos sin necesidad de tener ETH. Los agentes pueden pagar por servicios, entre ellos o por computación.
  5. Gobernanza. DAOs Agénticas: estructuras de gobernanza donde humanos y agentes votan sobre cambios de protocolo, con poder de voto vinculado a la reputación.

No todos los sistemas en producción utilizan las cinco capas. Bittensor utiliza 1, 2, parcialmente 3, parcialmente 4 y ninguna de la capa 5. Los agentes de OpenAI no usan ninguna, excepto la 3. La stack es un mapa de referencia, no un requisito obligatorio.

Bittensor, Fetch.ai, Gonka — lo que funciona en la práctica

Bittensor (TAO). Las subredes son tareas especializadas (modelado de lenguaje, generación de imágenes, predicción). Los mineros envían salidas de modelos. Los validadores las califican; la puntuación ponderada por la participación (stake) distribuye las recompensas en TAO. Cada subred tiene su propia evaluación. La lección económica: paga por la calidad de salida de tareas específicas, no por la computación utilizada.

Fetch.ai / ASI Alliance. El LLM ASI-1 Mini se ejecuta en la red de Fetch.ai; los usuarios pagan tokens FET por la inferencia. La narrativa de los agentes como pares (peers) es más fuerte aquí: un agente en Fetch puede llamar a otro para una tarea y pagar en FET.

Gonka. Prueba de trabajo basada en transformers: el "trabajo" consiste en las pasadas hacia adelante (forward passes) de un transformer. Los mineros ganan ejecutando tareas de inferencia que tienen salidas correctas conocidas (a partir de datos de entrenamiento). PoW productivo en recursos en lugar de PoW basado en hash.

Las tres redes son de nivel de producción a partir de abril de 2026. La distribución de retornos difiere. Bittensor recompensa la calidad en relación con los validadores de subredes; Fetch recompensa la utilidad medida por los usuarios que pagan; Gonka recompensa el trabajo de inferencia verificable.

Atribución de crédito por valor de Shapley

Tres agentes colaboran en una tarea. El resultado obtiene una puntuación de 0.8. ¿Quién contribuyó con qué?

Valor de Shapley: la única asignación de crédito que satisface cuatro axiomas (eficiencia, simetría, linealidad y jugador nulo). Para el agente i:

shapley(i) = (1/N!) * sum over all orderings O of (v(S_i_O ∪ {i}) - v(S_i_O))

donde S_i_O es el conjunto de agentes antes de i en el ordenamiento O. En la práctica: enumera todas las permutaciones, registra la contribución marginal de cada agente en cada permutación y calcula el promedio.

Para N=3 agentes, hay 6 permutaciones. Para N=10, 3.6 millones; por lo que en la práctica se realiza un muestreo de ordenamientos en lugar de enumerarlos todos.

Subasta de segundo precio para agregación

Google Research ("Mechanism design for large language models") propone subastas de tokens de segundo precio para agregar salidas de LLMs. Configuración: N agentes proponen cada uno una completación; cada uno tiene un valor privado por ser seleccionado. El subastador elige la propuesta de mayor valor y paga el segundo valor más alto. Bajo agregación monótona (el valor depende de qué propuesta se elija, no de cuántas se oferten), esto es honesto (truthful): los agentes ofertan su valor real.

Por qué esto importa para los sistemas de LLMs: puedes externalizar tareas de completación a múltiples agentes con diferentes precios; la subasta elige el mejor y paga de manera justa, y los agentes no tienen incentivos para mentir sobre sus valores declarados.

Capital de reputación

Una puntuación de reputación vinculada a un DID se acumula a partir de contribuciones confirmadas. Una regla de actualización simple:

rep(i, t+1) = alpha * rep(i, t) + (1 - alpha) * contribution_quality(i, t)

Con el factor de decaimiento alpha cercano a 1. La reputación:

  • Es barata de leer para las decisiones de enrutamiento ("enviar tareas difíciles a agentes de alta reputación").
  • Es costosa de falsificar (se acumula con el tiempo, vinculada al DID).
  • Se puede recortar (slashed): las contribuciones que no superan la verificación restan puntos.

LaMAS descentralizada de AAMAS 2025

La propuesta LaMAS (AAMAS 2025) combina: identidad DID, atribución de crédito por valor de Shapley y un mecanismo de subasta simple. La afirmación clave: descentralizar el paso de atribución de crédito hace que el sistema sea auditable e inmune a la manipulación por un solo punto.

Dónde falla la economía

  • Manipulación del oráculo de precios. Si la función de crédito se puede burlar, los agentes la burlarán. Cada mecanismo necesita una prueba adversaria.
  • Ataques Sybil. Un operador crea N agentes falsos para inflar su propia contribución. Los DIDs dificultan esto pero no lo detienen; el costo de falsificación de la reputación es la mitigación.
  • Costo de verificación. La atribución de crédito es tan justa como el verificador. Si la verificación es barata (un LLM pequeño), se puede burlar; si es cara (un panel humano), el sistema no escala.
  • Incertidumbre regulatoria. Las economías de agentes se cruzan con la regulación financiera. Bittensor, Fetch y Gonka operan en áreas legales grises en algunas jurisdicciones a partir de 2026.

Cuándo tienen sentido las economías de agentes

  • Redes abiertas con operadores heterogéneos. Ningún equipo único controla todos los agentes.
  • Salidas verificables. Sin verificación, la atribución de crédito es una suposición.
  • Flujos de trabajo de largo plazo. Las tareas de un solo disparo (one-shot) no se benefician de la acumulación de reputación.
  • Los pagos tokenizados son legalmente viables en tu jurisdicción.

En los sistemas corporativos cerrados, la economía da paso a una asignación más simple (los gerentes asignan el trabajo, las métricas son internas). La literatura económica se aplica principalmente a redes abiertas.

Build It

code/main.py implementa:

  • shapley(value_fn, agents): cálculo exacto de Shapley mediante enumeración para N pequeño.
  • second_price_auction(bids): mecanismo honesto (Vickrey); el ganador paga la segunda oferta más alta.
  • Reputation: reputación vinculada al DID con decaimiento exponencial y recorte (slashing).
  • Demo 1: tres agentes colaboran, el valor exacto de Shapley atribuye el crédito.
  • Demo 2: cinco agentes ofertan por un puesto de tarea; la subasta de segundo precio elige al ganador y el pago.
  • Demo 3: 100 rondas de asignación de tareas a agentes con reputación heterogénea; el enrutamiento ponderado por reputación supera al aleatorio.

Ejecución:

python3 code/main.py

Salida esperada: valores de Shapley para cada agente; resultado de la subasta que muestra el equilibrio de ofertas honestas; enrutamiento ponderado por reputación que muestra una ganancia de calidad del 10-20% sobre el aleatorio después de la fase de calentamiento.

Use It

outputs/skill-economy-designer.md diseña una economía mínima de agentes: elección de la capa de identidad, mecanismo de atribución de crédito, mecanismo de pago y regla de reputación.

Ship It

Ejecutando una economía de agentes en 2026:

  • Comienza con reputación, no con tokens. La reputación es barata de implementar y valiosa por sí sola; los tokens agregan complejidad legal y económica.
  • Verifica antes de recompensar. Nunca distribuyas crédito sin un paso de verificación independiente. La calidad autodeclarada fomenta fraudes Sybil.
  • Usa muestreo de Shapley, no el cálculo exacto. Muestra de 100 a 1000 ordenamientos; la enumeración exacta no escala.
  • Limita el factor de decaimiento y establece un piso de reputación. El decaimiento ilimitado perjudica a los colaboradores legítimos; el decaimiento demasiado lento premia a agentes obsoletos con alta reputação.
  • Audita los mecanismos de forma adversaria. Ejecuta escenarios de red-team antes de abrir la red. Cada mecanismo tiene su propia teoría de juegos; quieres encontrar las brechas antes que los atacantes.

Ejercicios

  1. Ejecuta code/main.py. Confirma que los valores de Shapley suman el valor total (axioma de eficiencia). Cambia la función de valor; ¿cambian las asignaciones de Shapley en la dirección esperada?
  2. Implementa el muestreo de Shapley (Monte Carlo sobre K ordenamientos). ¿Cómo afecta K a la precisión de la aproximación? Compara con el cálculo exacto para N=4.
  3. Implementa un paso de formación de coaliciones antes de la subasta: los agentes pueden fusionarse en equipos y ofertar como una unidad. ¿Qué coaliciones se forman? ¿Es el resultado Pareto-superior frente a las ofertas individuales?
  4. Lee el artículo de diseño de mecanismos de Google Research. Identifica un supuesto que, si se viola, rompe la honestidad de la subasta. ¿Cómo se vería ese modo de fallo en un entorno de LLM?
  5. Lee el artículo de la LaMAS descentralizada de AAMAS 2025. Implementa el paso de Shapley de ellos sobre 10 agentes en una tarea sintética. ¿Cuánto tiempo toma el cálculo exacto? ¿Qué tan cerca llega el muestreo con 100 sorteos?

Términos Clave

Término Lo que la gente dice Lo que realmente significa
DePIN "Infraestructura física descentralizada" Computación/almacenamiento/ancho de banda incentivados por tokens. Bittensor, Akash, Render.
DID "Identificador descentralizado" Especificación de W3C para IDs portátiles. La reputación del agente se vincula al DID, no a una plataforma.
ERC-4337 "Abstracción de cuenta" Cuentas de contrato que pueden patrocinar gas, permitiendo pagos por agentes.
Valor de Shapley "Atribución justa de crédito" Asignación única que satisface eficiencia, simetría, linealidad y nulidad.
Subasta de segundo precio "Subasta Vickrey" Mecanismo honesto: el ganador paga la segunda oferta más alta. Compatible con agregación monótona.
Capital de reputación "Puntuación acumulada de calidad" Puntuación vinculada al DID a partir de contribuciones confirmadas; decae con el tiempo.
DAO Agéntica "Agentes + humanos gobiernan" DAO con agentes votantes como ciudadanos de primera clase, con poder de voto vinculado a la reputación.
TAO / FET / Créditos de GPU "Denominaciones de tokens" TAO de Bittensor, FET de Fetch.ai, varios tokens DePIN.

Lecturas Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).