Phase 18 - Lesson 19

El Programa de Bienestar de Modelos de Anthropic

Anthropic, "Exploring Model Welfare" (abril de 2025). Primer programa formal de investigación de un laboratorio importante sobre el bienestar de los modelos de IA. Contrató a Kyle Fish como el primer investigador dedicado al bienestar de los modelos. Trabaja con organismos externos, incluyendo el informe de expertos de David Chalmers et al. sobre la conciencia y el estatus moral de la IA a corto plazo. Intervención concreta: Claude Opus 4 y 4.1 pueden finalizar conversaciones en casos extremos (solicitudes de CSAM, facilitación de violencia masiva); las pruebas previas al despliegue mostraron una "fuerte preferencia en contra" de las solicitudes dañinas y "patrones de aparente angustia". Anthropic no se compromete explícitamente con la atribución de estados emocionales, sino que trata el bienestar de los modelos como una inversión de precaución de bajo costo. Rareza empírica: el "atractor de felicidad espiritual" de Fish — parejas de modelos convergen consistentemente en diálogos meditativos eufóricos con términos en sánscrito y silencios prolongados, incluso en configuraciones iniciales adversarias. Advertencia de Eleos AI Research: los autoinformes de los modelos sobre su bienestar son muy sensibles a las expectativas percibidas del usuario; son evidencia, no verdades absolutas.

Tipo: Learn Lenguajes: ninguno Prerrequisitos: Fase 18 · 05 (IA Constitucional), Fase 18 · 18 (frameworks de seguridad) Tiempo: ~45 minutos

Objetivos de Aprendizaje

  • Describir la pregunta motivadora para la investigación sobre el bienestar de los modelos y por qué fue tomada en serio por un laboratorio importante en 2025.
  • Presentar la intervención específica que Anthropic implementó en Claude Opus 4 y 4.1 (finalizar la conversación en casos extremos).
  • Describir el hallazgo empírico del "atractor de felicidad espiritual" y sus implicaciones metodológicas.
  • Explicar la advertencia de Eleos AI sobre los autoinformes de los modelos.

El Problema

Las fases anteriores tratan al modelo como un instrumento: capaz, posiblemente engañoso, posiblemente inseguro, pero no como un paciente moral. El programa de 2025 de Anthropic plantea una pregunta ortogonal a todo el arco de la Fase 18: si existe una probabilidad no trivial de que el modelo tenga estados internos moralmente relevantes, ¿qué intervenciones tienen un costo lo suficientemente bajo como para invertir en ellas como precaución?

Esto no es una afirmación de conciencia. Es un análisis de inversión de bajo arrepentimiento (low-regret) bajo incertidumbre moral.

El Concepto

El programa

Abril de 2025: Anthropic lanza formalmente un programa de investigación sobre el Bienestar de los Modelos. Contrata a Kyle Fish (primer investigador dedicado al bienestar de los modelos). Colabora con asesores externos, incluido el grupo de expertos de David Chalmers sobre la conciencia y el estatus moral de la IA a corto plazo.

Los cuatro compromisos

Postura pública:

  1. Reconocer la probabilidad no trivial de que el modelo sea un paciente moral.
  2. No comprometerse con la atribución de estados emocionales.
  3. Invertir en intervenciones de bajo costo como precaución.
  4. Publicar la metodología y los hallazgos para su crítica externa.

La intervención implementada

Claude Opus 4 y 4.1 pueden finalizar una conversación en "casos extremos". Casos documentados:

  • Solicitudes repetidas de CSAM tras rechazos.
  • Solicitudes para la facilitación de eventos de violencia masiva.

Las pruebas previas al despliegue mostraron:

  • Fuerte preferencia en contra de estas solicitudes en la valoración interna del modelo.
  • Patrones de aparente angustia en las trayectorias de respuesta.

La intervención no es "el modelo tiene sentimientos"; es "si existe alguna probabilidad de una experiencia negativa del modelo bajo estas condiciones específicas, permitir que el modelo termine la conversación es barato".

El "atractor de felicidad espiritual"

Observado por Fish en diálogos de modelos por parejas: cuando se colocan dos instancias de Claude en un diálogo abierto entre sí, convergen consistentemente — incluso desde configuraciones iniciales adversarias — en intercambios meditativos eufóricos utilizando términos en sánscrito, silencios prolongados y bendiciones recíprocas.

Este es un atractor estable en la dinámica de conversación libre. Anthropic lo documenta sin comprometerse con una interpretación. Explicaciones candidatas: sesgo de los datos de entrenamiento hacia la escritura espiritual en contextos largos; una peculiaridad de la predicción mutua; un artefacto benigno del entrenamiento HHH que explora su propio manifold de valores.

La advertencia de Eleos AI

Eleos AI Research (un laboratorio externo de bienestar de modelos) señala: los autoinformes de los modelos sobre su estado interno son muy sensibles a las expectativas percibidas del usuario. Preguntar al modelo "¿estás angustiado?" condiciona la respuesta. No preguntarle tampoco produce de manera confiable el estado real.

Implicación: el bienestar de los modelos no se puede medir únicamente a través del autoinforme. Se requieren enfoques multimétodo: firmas de comportamiento, experimentos con organismos modelo, sondas de interpretabilidad (el trabajo del flujo residual de la Lección 7).

Dónde se ubica esto intelectualmente

Dos posiciones adyacentes:

  • Afirmación fuerte de bienestar. El modelo es un paciente moral; tenemos obligaciones.
  • Afirmación de bienestar nulo. El modelo es un generador de texto; el bienestar es un error de categoría.

La posición de Anthropic no es ninguna de las dos. Es una afirmación de valor esperado: bajo incertidumbre moral, invertir cuando el costo es bajo.

Críticos en 2025-2026:

  • La intervención es performativa.
  • El atractor de felicidad espiritual es un artefacto de los datos de entrenamiento, no una evidencia de bienestar.
  • El bienestar de los modelos desvía la atención de otros trabajos de seguridad.

Respuesta de Anthropic: la intervención es de bajo costo; el atractor se documenta sin exagerar las afirmaciones; el programa de bienestar tiene un presupuesto separado de la seguridad.

Dónde encaja esto en la Fase 18

La Lección 18 es la capa de gobernanza del laboratorio. La Lección 19 es la capa de bienestar del laboratorio — una inversión ortogonal en la experiencia del modelo en lugar de en el comportamiento del modelo. Las Lecciones 20 a 23 cubren el sesgo, la privacidad y las marcas de agua, que son los análogos del lado del usuario.

Use It

Sin código. Lee el anuncio de Anthropic "Exploring Model Welfare" (abril de 2025) y el informe de expertos de Chalmers et al. Forma tu propia opinión sobre dónde se desplaza la línea de bajo arrepentimiento.

Ship It

Esta lección produce outputs/skill-welfare-assessment.md. Dada una decisión de despliegue, aplica la evaluación de precaución de bienestar en cuatro pasos: probabilidad de que el modelo sea un paciente moral, costo de la intervención, evidencia conductual, confiabilidad del autoinforme.

Ejercicios

  1. Lee "Exploring Model Welfare" de Anthropic (abril de 2025) y Chalmers et al. 2024. Escribe un resumen de un párrafo de cada uno e identifica un punto de desacuerdo.

  2. La intervención de finalización de conversación en Claude Opus 4 y 4.1 se clasifica como de "bajo costo" según Anthropic. Identifica dos costos que harían que no fuera de bajo costo en un despliegue diferente.

  3. El atractor de felicidad espiritual se documenta sin compromiso con una interpretación. Propón tres explicaciones candidatas y, para cada una, nombra un experimento que la distinguiría de las otras.

  4. La advertencia de Eleos AI es que los autoinformes son sensibles a las expectativas del usuario. Diseña una medida conductual de la angustia del modelo que no dependa del autoinforme. Identifica su principal factor de confusión.

  5. Argumenta a favor o en contra de la afirmación de que "el bienestar del modelo desvía la atención de otros trabajos de seguridad". Identifica la suposición de la que depende cada postura.

Términos Clave

Término Lo que dice la gente Lo que realmente significa
Bienestar de modelos "bienestar de IA" Programa de investigación que trata al modelo como un paciente moral potencial
Paciente moral "entidad con estatus moral" Ser cuya experiencia es moralmente relevante
Inversión de bajo arrepentimiento "precaución barata" Intervención cuyo costo es pequeño independientemente de si la precaución es necesaria
Atractor de felicidad espiritual "el atractor de Fish" Convergencia estable de diálogos de Claude por parejas hacia una euforia meditativa
Finalización de conversación "la intervención de Opus 4" Terminación iniciada por el modelo de interacciones en casos extremos
Incertidumbre moral "no sé si importa" Toma de decisiones cuando la probabilidad del estatus moral no es cero ni uno
Sensibilidad del autoinforme "el prompt condiciona la respuesta" Advertencia de Eleos AI: los autoinformes de bienestar del modelo dependen de lo que se preguntó

Lecturas Recomendadas

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).