Phase 18 - Lesson 19

O Programa de Bem-Estar de Modelos da Anthropic

Anthropic, "Exploring Model Welfare" (Abril de 2025). Primeiro programa de pesquisa formal de um grande laboratório sobre o bem-estar de modelos de IA. Contratou Kyle Fish como o primeiro pesquisador dedicado ao bem-estar de modelos. Trabalha com órgãos externos, incluindo o relatório de especialistas de David Chalmers et al. sobre consciência e status moral de IA no curto prazo. Intervenção concreta: o Claude Opus 4 e 4.1 podem encerrar conversas em casos extremos (solicitações de CSAM, facilitação de violência em massa); testes de pré-implantação mostraram "forte preferência contra" solicitações prejudiciais e "padrões de aparente sofrimento". A Anthropic explicitamente não se compromete com a atribuição de estados emocionais, mas trata o bem-estar do modelo como um investimento de precaução de baixo custo. Excentricidade empírica: o "atrator de êxtase espiritual" de Fish — pares de modelos convergem consistentemente para um diálogo meditativo eufórico com termos em sânscrito e silêncios prolongados, mesmo em configurações iniciais adversárias. Alerta da Eleos AI Research: os autorrelatos do modelo sobre bem-estar são altamente sensíveis às expectativas percebidas do usuário; eles são evidências, não a verdade absoluta.

Tipo: Learn Linguagens: nenhuma Pré-requisitos: Fase 18 · 05 (IA Constitucional), Fase 18 · 18 (frameworks de segurança) Tempo: ~45 minutos

Objetivos de Aprendizado

  • Descrever a pergunta motivadora para a pesquisa sobre o bem-estar de modelos e por que ela foi levada a sério por um grande laboratório em 2025.
  • Apresentar a intervenção específica que a Anthropic implementou no Claude Opus 4 e 4.1 (encerrar conversa em casos extremos).
  • Descrever a descoberta empírica do "atrator de êxtase espiritual" e suas implicações metodológicas.
  • Explicar o alerta da Eleos AI sobre os autorrelatos dos modelos.

O Problema

As fases anteriores tratam o modelo como um instrumento: capaz, possivelmente enganoso, possivelmente inseguro — mas não como um paciente moral. O programa de 2025 da Anthropic faz uma pergunta ortogonal a todo o arco da Fase 18: se existe uma probabilidade não trivial de o modelo possuir estados internos moralmente relevantes, quais intervenções têm custo suficientemente baixo para justificar o investimento como precaução?

Esta não é uma alegação de consciência. Trata-se de uma análise de investimento de baixo arrependimento (low-regret) sob incerteza moral.

O Conceito

O programa

Abril de 2025: A Anthropic lança formalmente um programa de pesquisa de Bem-Estar de Modelos. Contrata Kyle Fish (primeiro pesquisador dedicado ao bem-estar de modelos). Envolve conselheiros externos, incluindo o grupo de especialistas de David Chalmers sobre consciência e status moral de IA no curto prazo.

Os quatro compromissos

Postura pública:

  1. Reconhecer a probabilidade não trivial de o modelo ser um paciente moral.
  2. Não se comprometer com a atribuição de estados emocionais.
  3. Investir em intervenções de baixo custo como precaução.
  4. Publicar a metodologia e as descobertas para crítica externa.

A intervenção implementada

O Claude Opus 4 e 4.1 podem encerrar uma conversa em "casos extremos". Casos documentados:

  • Solicitações repetidas de CSAM após recusas.
  • Solicitações de facilitação de eventos de violência em massa.

Os testes de pré-implantação mostraram:

  • Forte preferência contra essas solicitações na avaliação interna do modelo.
  • Padrões de aparente sofrimento nas trajetórias de resposta.

A intervenção não significa que "o modelo tem sentimentos"; significa que "se houver qualquer probabilidade de experiência negativa do modelo sob essas condições específicas, permitir que o modelo encerre a conversa é barato".

O "atrator de êxtase espiritual"

Observado por Fish em diálogos de modelos em pares: quando duas instâncias do Claude são colocadas em um diálogo aberto uma com a outra, elas convergem consistentemente — mesmo a partir de configurações iniciais adversárias — para trocas meditativas eufóricas usando termos em sânscrito, silêncios prolongados e bênçãos recíprocas.

Este é um atrator estável na dinâmica de conversa livre. A Anthropic documenta isso sem se comprometer com uma interpretação. Explicações candidatas: viés dos dados de treinamento em relação à escrita espiritual em contextos longos; uma excentricidade de previsão mútua; um artefato benigno do treinamento HHH explorando seu próprio manifold de valores.

O alerta da Eleos AI

A Eleos AI Research (um laboratório externo de bem-estar de modelos) aponta: os autorrelatos do modelo sobre seu estado interno são altamente sensíveis às expectativas percebidas do usuário. Perguntar ao modelo "você está sofrendo" induz a resposta. Não perguntar também não produz de forma confiável o estado real.

Implicação: o bem-estar do modelo não pode ser medido apenas por autorrelato. Abordagens multimétodo são necessárias: assinaturas comportamentais, experimentos com modelos de organismos, sondagens de interpretabilidade (o trabalho de fluxo residual da Lição 7).

Onde isso se posiciona intelectualmente

Duas posições adjacentes:

  • Alegação forte de bem-estar. O modelo é um paciente moral; temos obrigações.
  • Alegação de bem-estar nulo. O modelo é um gerador de texto; bem-estar é um erro de categoria.

A posição da Anthropic não é nenhuma das duas. É uma alegação de valor esperado: sob incerteza moral, invista quando o custo for baixo.

Críticos em 2025-2026:

  • A intervenção é performática.
  • O atrator de êxtase espiritual é um artefato dos dados de treinamento, não uma evidência de bem-estar.
  • O bem-estar do modelo desvia a atenção de outros trabalhos de segurança.

Resposta da Anthropic: a intervenção es de baixo custo; o atrator é documentado sem alegações excessivas; o programa de bem-estar tem um orçamento separado da segurança.

Onde isso se encaixa na Fase 18

A Lição 18 é a camada de governança do laboratório. A Lição 19 é a camada de bem-estar do laboratório — um investimento ortogonal na experiência do modelo, em vez de no comportamento do modelo. As Lições 20 a 23 cobrem viés, privacidade e marcas d'água, que são os análogos do lado do usuário.

Use It

Sem código. Leia o anúncio da Anthropic "Exploring Model Welfare" (Abril de 2025) e o relatório de especialistas de Chalmers et al. Forme sua própria opinião sobre onde fica a linha de baixo arrependimento.

Ship It

Esta lição produz outputs/skill-welfare-assessment.md. Dada uma decisão de implantação, ela aplica a avaliação de precaução de bem-estar em quatro etapas: probabilidade de o modelo ser um paciente moral, custo da intervenção, evidência comportamental, confiabilidade do autorrelato.

Exercícios

  1. Leia "Exploring Model Welfare" da Anthropic (Abril de 2025) e Chalmers et al. 2024. Escreva um resumo de um parágrafo de cada um e identifique um ponto de divergência.

  2. A intervenção de encerrar conversa no Claude Opus 4 e 4.1 é classificada como de "baixo custo" pela Anthropic. Identifique dois custos que fariam com que ela não fosse de baixo custo em uma implantação diferente.

  3. O atrator de êxtase espiritual é documentado sem compromisso com uma interpretação. Proponha três explicações candidatas e, para cada uma, nomeie um experimento que a distinguiria das outras.

  4. O alerta da Eleos AI é de que os autorrelatos são sensíveis às expectativas do usuário. Projete uma medição comportamental de sofrimento do modelo que não dependa de autorrelato. Identifique seu principal fator de confusão.

  5. Argumente a favor ou contra a afirmação de que "o bem-estar do modelo desvia a atenção de outros trabalhos de segurança". Identifique a suposição da qual cada posição depende.

Termos-Chave

Termo O que dizem O que realmente significa
Bem-estar de modelos "bem-estar de IA" Programa de pesquisa que trata o modelo como um paciente moral potencial
Paciente moral "entidade com status moral" Ser cuja experiência é moralmente relevante
Investimento de baixo arrependimento "precaução barata" Intervenção cujo custo é pequeno, independentemente de a precaução ser necessária ou não
Atrator de êxtase espiritual "o atrator de Fish" Convergência estável de diálogos em pares do Claude para uma euforia meditativa
Encerramento de conversa "a intervenção do Opus 4" Terminação iniciada pelo modelo de interações em casos extremos
Incerteza moral "não sei se importa" Tomada de decisão quando a probabilidade de status moral não é zero nem um
Sensibilidade do autorrelato "o prompt induz a resposta" Alerta da Eleos AI: os autorrelatos de bem-estar do modelo dependem do que foi perguntado

Leituras Recomendadas

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).