Phase 16 - Lesson 16
Negociación y Regateo
This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.
Los agentes negocian recursos, precios, asignaciones de tareas y condiciones. El conjunto de benchmarks de 2026 es claro: NegotiationArena (arXiv:2402.05863) muestra que los LLM pueden mejorar los retornos (payoffs) en aproximadamente un 20% mediante la manipulación de la personalidad (o persona) ("desesperación"); "Measuring Bargaining Abilities" (arXiv:2402.15813) muestra que el papel de comprador es más difícil que el de vendedor y que el aumento de escala no ayuda: su enfoque OG-Narrator (generador de ofertas determinista + narrador LLM) elevó la tasa de acuerdos del 26.67% al 88.88%; la Large-Scale Autonomous Negotiation Competition (arXiv:2503.06416) realizó aproximadamente 180k negociaciones y descubrió que los agentes que ocultan la cadena de pensamiento (chain-of-thought-concealing) ganan al ocultar su razonamiento a sus contrapartes; Bhattacharya et al. 2025 en las métricas del Harvard Negotiation Project clasificó a Llama-3 como el más efectivo, a Claude-3 como el más agresivo y a GPT-4 como el más justo. Esta lección implementa el Contract Net Protocol (el predecesor de FIPA, Lección 02), conecta un comprador y vendedor basados en LLM, ejecuta una descomposición al estilo de OG-Narrator y mide cómo cambia la tasa de acuerdos con cada elección estructural.
Tipo: Aprender + Construir Lenguajes: Python (stdlib) Prerrequisitos: Phase 16 · 02 (FIPA-ACL Heritage), Phase 16 · 09 (Parallel Swarm Networks) Tiempo: ~75 minutos
Problema
Dos agentes necesitan ponerse de acuerdo sobre un precio. Dejados a su suerte con prompts de lenguaje puros, los LLM de 2024-2026 cierran acuerdos a tasas sorprendentemente bajas (~27% en negociaciones rígidamente parametrizadas en arXiv:2402.15813). El aumento de escala del modelo no lo soluciona: GPT-4 no es estructuralmente mejor negociando que GPT-3.5; es mejor en el lenguaje de la negociación.
El problema de fondo es que los LLM confunden dos tareas: decidir la oferta y narrar la oferta. La descomposición OG-Narrator separó estas tareas: un generador de ofertas determinista calcula los movimientos numéricos; el LLM solo narra. La tasa de acuerdos salta a ~89%.
Esto refleja un hallazgo clásico en sistemas multiagente: desacoplar el mecanismo de la capa de comunicación da buenos resultados. El Contract Net Protocol (FIPA, 1996; Smith, 1980) es el mecanismo de mercado de tareas de referencia. Conecte un LLM en la ranura de narración y obtendrá un mercado de tareas moderno impulsado por LLM.
Concepto
Contract Net, en un párrafo
El Contract Net Protocol de Smith de 1980: un gerente emite una llamada de propuestas (cfp); los licitadores responden con mensajes de propuesta (propose) que contienen sus ofertas; el gerente elige a un ganador y envía la aceptación de la propuesta (accept-proposal) al ganador y el rechazo de la propuesta (reject-proposal) a los perdedores. El ganador realiza el trabajo. Mensaje opcional: rechazo (refuse), cuando el licitador se niega a proponer. FIPA codificó esto como el protocolo de interacción fipa-contract-net.
Por qué gana OG-Narrator
"Measuring Bargaining Abilities of Language Models" (arXiv:2402.15813) observó que:
- Los LLM a menudo violan las reglas de negociación (ofrecen precios absurdos, ignoran la ZOPA de la contraparte).
- Establecen malos puntos de partida o anclas (aceptan malas primeras ofertas; contraofertan con cantidades simbólicas en lugar de estratégicas).
- El tamaño del modelo por sí solo no lo soluciona. Los modelos más grandes producen un lenguaje más plausible pero con errores estratégicos similares.
La descomposición de OG-Narrator:
┌──────────────────┐ ┌──────────────────┐
state → │ offer generator │ price → │ LLM narrator │ → message
│ (deterministic) │ │ (writes the │
│ │ │ human-style │
└──────────────────┘ │ accompaniment) │
└──────────────────┘
El generador de ofertas es una estrategia de negociación clásica: un modelo de negociación de Rubinstein, una estrategia de Zeuthen o un simple "ojo por ojo" (tit-for-tat) sobre el precio. El LLM narra. El mensaje contiene el precio determinista y el marco de lenguaje natural.
La tasa de acuerdo aumenta porque:
- Los precios se mantienen en la zona de negociación.
- Las anclas son estratégicas, no emocionales.
- El LLM hace lo que se le da bien: escribir.
Hallazgos de NegotiationArena
arXiv:2402.05863 proporciona el benchmark canónico. Hallazgos principales:
- Los LLM pueden mejorar los retornos (payoffs) en aproximadamente un 20% adoptando personalidades (o personas) ("estoy desesperado por vender esto antes del viernes"): la manipulación de la personalidad es una táctica real.
- Los agentes justos o cooperativos son explotados por los adversarios; la defensa requiere una postura explícita de oposición.
- Los emparejamientos simétricos convergen en resultados desiguales en aproximadamente el 40% de los escenarios del benchmark.
Esto no significa que "los LLM sean malos negociadores". Significa que "los LLM negocian demasiado como los humanos, incluidas las partes explotables".
Ocultación de la cadena de pensamiento (Chain-of-thought concealment)
La Large-Scale Autonomous Negotiation Competition (arXiv:2503.06416) ejecutó aproximadamente 180k negociaciones utilizando múltiples estrategias de LLM. Los ganadores ocultaron su razonamiento a sus contrapartes:
- Si un agente escribe "solo llegaré a $75; mi precio de reserva es $70" en un borrador (scratchpad) visible públicamente, el oponente lo lee.
- Los ganadores calculan la estrategia de forma privada; el canal de salida contiene solo la oferta y la narración mínima requerida.
Este es un eco en 2026 de la teoría de juegos clásica (Aumann 1976 sobre la racionalidad y la información): revelar su valoración privada reduce el retorno. Los LLM no intuyen esto y escriben con gusto sus límites en trazas de razonamiento que se vuelven visibles para la contraparte.
Conclusión de ingeniería: separe el contexto del borrador privado del contexto del mensaje público. Esto no es opcional.
Bhattacharya et al. 2025 — rankings de modelos
En las métricas del Harvard Negotiation Project (negociación basada en principios, respeto a BATNA, reciprocidad de intereses):
- Llama-3 fue el más efectivo para cerrar tratos (tasa de acuerdo + retornos).
- Claude-3 fue el negociador más agresivo (anclas altas, concesiones tardías).
- GPT-4 fue el más justo (menor variación en los retornos en todos los emparejamientos).
Este es un panorama de 2025. El punto no es qué modelo gana en abril de 2026, sino que los diferentes modelos base tienen estilos de negociación persistentes. Los conjuntos heterogéneos (Lección 15) incluyen esto como una fuente de diversidad.
Asignación de tareas a través de Contract Net + LLM
La reutilización moderna de Contract Net para sistemas multiagente de LLM:
- El agente gerente descompone una tarea en unidades.
- Emite una
cfpcon la descripción de la tarea a los agentes trabajadores. - Cada trabajador devuelve una oferta:
(price, eta, confidence)donde el precio podría ser tokens, unidades de cómputo o dólares. - El gerente elige a los ganadores (uno o varios, según la tarea) y los asigna.
- Los trabajadores rechazados quedan libres para licitar en otras tareas.
Esto escala bien más allá de los 100 trabajadores porque la coordinación es por emisión y respuesta, no mediante chat síncrono. Utilizado en producción: patrones de orquestación de Microsoft Agent Framework, algunas implementaciones del LangGraph.
Negociación interactiva con stakeholders de LLM
NeurIPS 2024 (https://proceedings.neurips.cc/paper_files/paper/2024/file/984dd3db213db2d1454a163b65b84d08-Paper-Datasets_and_Benchmarks_Track.pdf) introduce juegos de puntuación multipartitos con puntuaciones secretas y umbrales mínimos de aceptación. Cada stakeholder tiene utilidades privadas; el LLM debe inferirlas a partir de los mensajes. Esta es la generalización de la negociación bipartita a la formación de coaliciones multipartitas. Relevante para mercados de tareas de producción con capacidades de trabajadores heterogéneas.
La regla de narración frente a mecanismo
En todos los benchmarks de negociación de 2024-2026, la regla de ingeniería consistente es:
Permita que el LLM narre. No permita que el LLM calcule la oferta.
Si la oferta debe ser un número (precio, tiempo estimado de entrega, cantidad), calcúlelo de forma determinista a partir del estado de la negociación y haga que el LLM genere el marco del mensaje. Si la oferta debe ser una estructura de propuesta (descomposición de tareas, asignación de roles), deje que el LLM la redacte, pero valídela contra un esquema y verifique las restricciones antes de enviarla.
Constrúyelo
code/main.py implementa:
ContractNetManager,ContractNetTask,Bid— gerente + licitadores, emisión de cfp, recopilación de propuestas, asignación.og_narrator_bargain(state, rng)— comprador OG-Narrator: concesión determinista al estilo de Zeuthen hacia el punto medio.seller_response(state, rng)— política determinista de contraoferta del vendedor (la base estructural para ambos estilos).naive_llm_bargain(state, rng)— simula un negociador puramente basado en LLM: elige precios con alta varianza, a menudo fuera de la ZOPA.- Medición: tasa de acuerdo sobre 1000 ensayos con precios de reserva nuevos muestreados por ensayo.
Ejecutar:
python3 code/main.py
Resultado esperado: tasa de acuerdo de LLM ingenuo ~65-75%; tasa de acuerdo de OG-Narrator ~85-95%; la brecha de 15-25 puntos es la ventaja estructural de descomponer la generación de ofertas de la narración. Además de un ejemplo de asignación de mercado de tareas de Contract Net con tres licitadores y una tarea.
Úsalo
outputs/skill-bargainer-designer.md diseña un protocolo de negociación: quién genera las ofertas (determinista o LLM), quién narra, cómo se separan los borradores privados de los mensajes públicos y cómo se monitorea la tasa de acuerdos.
Ponlo en Producción
Lista de verificación de negociación en producción:
- Borrador separado. El estado privado nunca llega al contexto de la contraparte. Esto no es opcional.
- Generación de ofertas determinista. Precios, cantidades, tiempos estimados de entrega: calcule, no use prompts.
- Valide todas las ofertas entrantes contra un esquema. Rechace las ofertas fuera de la ZOPA en el límite del protocolo.
- Rondas limitadas. 3-5 rondas como máximo; escale a un mediador en caso de estancamiento.
- Monitoree la tasa de acuerdos y la variación de los retornos de forma continua. Una caída en la tasa de acuerdos es un síntoma (a menudo una deriva del prompt o un ataque de la contraparte).
- Registre todas las propuestas rechazadas con la explicación determinista. Para los gerentes de Contract Net, los licitadores perdedores necesitan entender por qué perdieron.
Ejercicios
- Ejecute
code/main.py. Confirme que OG-Narrator supera a LLM ingenuo en la tasa de acuerdos. ¿Por cuánto? - Implemente la mejora de retornos basada en la personalidad (arXiv:2402.05863): el comprador adopta una personalidad de "urgencia por comprar esta semana" solo en la narración, el generador de ofertas se mantiene igual. ¿Cambia la tasa de acuerdo o el retorno?
- Implemente la ocultación de la cadena de pensamiento: mantenga una cadena de borrador privada que no se pase a la contraparte. ¿Qué sucede si la filtra accidentalmente (simule intercambiando los canales)?
- Extienda Contract Net a una subasta de N licitadores con precio de reserva. Cuando todas las ofertas superan la reserva, ¿cómo decide el gerente entre el precio más bajo y la calidad más alta? ¿Qué regla de asignación elige y por qué?
- Lea Bhattacharya et al. 2025 sobre las métricas del Harvard Negotiation Project. Implemente dos negociadores con estilos diferentes (agresivo frente a justo). Mida la variación de los retornos en emparejamientos simétricos y asimétricos.
Términos Clave
| Término | Lo que la gente dice | Lo que realmente significa |
|---|---|---|
| Contract Net | "Mercado de tareas" | Smith 1980, FIPA 1996. cfp + propose + accept/reject. El mercado de tareas canónico. |
| ZOPA | "Zona de posible acuerdo" | Solapamiento entre el máximo del comprador y el mínimo del vendedor. Las ofertas fuera de ella no pueden cerrarse. |
| BATNA | "Mejor alternativa a un acuerdo negociado" | Su plan de respaldo si este acuerdo falla. Establece su precio de reserva. |
| OG-Narrator | "Generador de ofertas + narrador" | Descomposición: oferta determinista, narración LLM. |
| Zeuthen strategy | "Concesión que minimiza el riesgo" | Generador de ofertas clásico que concede en función de los límites de riesgo. |
| Rubinstein bargaining | "Equilíbrio de ofertas alternas" | Modelo de teoría de juegos para la negociación de horizonte infinito con descuento. |
| CoT concealment | "Ocultar su razonamiento" | Los ganadores en arXiv:2503.06416 mantuvieron borradores privados; el canal público solo muestra la oferta. |
| Persona manipulation | "Postura emocional" | arXiv:2402.05863: ~20% de ganancia en el retorno con personalidades de urgencia/desesperación. |
Lecturas Adicionales
- NegotiationArena — el benchmark; hallazgos de manipulación de personalidad y explotación
- Measuring Bargaining Abilities of Language Models — OG-Narrator y el resultado de que el comprador es más difícil que el vendedor
- Large-Scale Autonomous Negotiation Competition — ~180k negociaciones; la ocultación de la cadena de pensamiento gana
- LLM-Stakeholders Interactive Negotiation (NeurIPS 2024) — juegos puntuables multipartitos con utilidades secretas
- Smith 1980 — The Contract Net Protocol — el mecanismo clásico, IEEE Transactions on Computers