Phase 15 - Lesson 22

CAIS, CAISI y Riesgo a Escala Societal

El Center for AI Safety (CAIS, San Francisco, fundado en 2022 por Hendrycks y Zhang) publica el framework de cuatro riesgos —uso malicioso, carreras de IA, riesgos organizacionales, IAs rebeldes— y la declaración de mayo de 2023 sobre el riesgo de extinción firmada por cientos de profesores y líderes de empresas. Lanzamientos de 2026 de CAIS: AI Dashboard para la evaluación de modelos de frontera, Remote Labor Index (con Scale AI), Superintelligence Strategy Paper, boletín informativo AI Frontiers. Una entidad distinta: NIST Center for AI Standards and Innovation (CAISI) —acuerdos voluntarios orientados al gobierno de EE. UU. y evaluaciones no clasificadas de capacidades centradas en riesgos de armas cibernéticas, biológicas y químicas. CAIS señala el riesgo organizacional como uno de los cuatro riesgos de nivel superior: la cultura de seguridad, las auditorías rigurosas, las defensas multicapa y la seguridad de la información son fundamentales, pero habitualmente se sacrifican en favor de la velocidad de despliegue. El proyecto de ley SB-53 de California, si se firma, sería la primera regulación de riesgo catastrófico a nivel estatal en EE. UU.

Tipo: Learn Lenguajes: Python (stdlib, inventario de cuatro riesgos y comparador de mitigación) Prerrequisitos: Fase 15 · 19 (RSP), Fase 15 · 20 (PF + FSF) Tiempo: ~45 minutos

El Problema

Las Lecciones 19 y 20 cubrieron las políticas de escalado internas de los laboratorios. La Lección 21 cubrió la evaluación independiente de capacidades. Esta lección cubre la tercera perspectiva: la sociedad civil y las organizaciones gubernamentales que dan forma a la discusión pública y al punto de partida regulatorio para el riesgo catastrófico de la IA.

Dos entidades distintas son importantes. CAIS es una organización de investigación sin fines de lucro que publica frameworks para pensar sobre el riesgo de la IA y coordina declaraciones públicas. CAISI es un centro del gobierno de EE. UU. dentro del NIST que gestiona acuerdos voluntarios con laboratorios y evaluaciones no clasificadas de capacidades. Los nombres riman; las misiones no se superponen. Un profesional debe conocer ambos.

El contenido práctico: el framework de cuatro riesgos de CAIS es la taxonomía de riesgo a escala societal más citada en la literatura. La cultura de seguridad y el riesgo organizacional son uno de esos cuatro, y este es el que está más directamente bajo el control de un profesional. El proyecto de ley SB-53 (California) sería la primera regulación estatal de riesgo catastrófico en EE. UU. si se firma; el enfoque del proyecto de ley es importante porque la regulación a nivel estatal históricamente ha precedido la acción federal en la política tecnológica de EE. UU.

El Concepto

CAIS — Center for AI Safety

  • Fundación: 2022 en San Francisco, por Dan Hendrycks y colaboradores (el nombre "Zhang" se refiere a un colaborador inicial, no a un cofundador actual; consulte el sitio web de CAIS para ver la liderazgo actual).
  • Estado: organización sin fines de lucro 501(c)(3).
  • Producción notable de 2023: declaración sobre el riesgo de extinción, firmada conjuntamente por cientos de investigadores y directores ejecutivos (CEOs). Declaró: "Mitigar el riesgo de extinción debido a la IA debería ser una prioridad global junto con otros riesgos a escala societal como las pandemias y la guerra nuclear".
  • Entregas de 2026: AI Dashboard para la evaluación de modelos de frontera, Remote Labor Index (conjuntamente con Scale AI), Superintelligence Strategy Paper, boletín informativo AI Frontiers.

El framework de cuatro riesgos

El framework de CAIS agrupa el riesgo catastrófico de la IA en cuatro categorías de nivel superior:

  1. Uso malicioso: un actor malintencionado utiliza la IA para causar daños (síntesis de armas biológicas, desinformación, ciberataques).
  2. Carreras de IA: la presión competitiva entre laboratorios, empresas o naciones fuerza el despliegue más allá del punto en el que es seguro.
  3. Riesgos organizacionales: las dinámicas internas del laboratorio (fallas en la cultura de seguridad, auditorías insuficientes, seguridad con recursos insuficientes) producen un despliegue deficiente.
  4. IAs rebeldes: una IA suficientemente capaz persigue objetivos que entran en conflicto con el bienestar humano.

Esta no es la única taxonomía; es la más citada. Las categorías no son mutuamente excluyentes: una IA rebelde producida por una organización que sacrificó la auditoría por la velocidad en una carrera involucra las cuatro categorías.

Dónde vive el riesgo organizacional

De las cuatro categorías, el riesgo organizacional es el más accionable para los profesionales. La cultura de seguridad de un laboratorio, el rigor de las auditorías, el diseño de defensas multicapa y la seguridad de la información deciden si su modelo se lanza con los controles de las Lecciones 10–18 realmente implementados, o si esos controles son solo elementos de una lista de verificación que nadie verificó.

Las palancas concretas del riesgo organizacional:

  • Cultura de seguridad: ¿los miembros del equipo se sienten capaces de reportar una preocupación sin costo para sus carreras? Las encuestas de CAIS indican que este es un fuerte predictor de las otras palancas.
  • Auditorías rigurosas: externas e internas. Las auditorías exclusivamente internas producen informes optimistas.
  • Defensas multicapa: ninguna capa única es suficiente (el tema recurrente de la Fase 15).
  • Seguridad de la información: filtración de pesos del modelo, filtración de datos de evaluación, filtración de técnicas de elusión de monitores. RAND SL-4 en la Lección 19 es un estándar específico.

CAISI — Center for AI Standards and Innovation

  • Opera dentro del NIST.
  • Gestiona acuerdos voluntarios con laboratorios de frontera.
  • Publica evaluaciones no clasificadas de capacidades centradas en riesgos de armas cibernéticas, biológicas y químicas.
  • Distinto de CAIS; las siglas colisionan; verifique la URL (nist.gov) para confirmar cuál está leyendo.

El papel de CAISI es el equivalente público y orientado al gobierno de los compromisos privados de laboratorios de METR (Lección 21). Los informes de CAISI no son clasificados; los informes de METR a menudo están protegidos por acuerdos de confidencialidade (NDA). Un profesional que lee ambos obtiene un panorama más completo.

California SB-53

El proyecto de ley del Senado de California (sesión 2025–2026) aborda el riesgo catastrófico de los modelos de frontera. Disposiciones clave según el borrador:

  • Umbrales de capacidad específicos que activan obligaciones a nivel estatal.
  • Protecciones para denunciantes (whistleblowers) para empleados de laboratorios de IA.
  • Requisitos de reporte de incidentes para fallas catastróficas.

Si se firma, sería la primera regulación estatal de riesgo catastrófico en EE. UU. Independientemente de si se firma o no, el enfoque del proyecto de ley moldea la forma en que otras legislaturas estatales abordan el problema. Los profesionales en California deben realizar un seguimiento del estado del proyecto de ley; los profesionales de otros lugares deben leerlo para comprender cómo se verá probablemente la regulación estatal de EE. UU.

El riesgo a escala societal no es un problema de una sola capa

El tema de la Fase 15 —defensa en profundidad— también se aplica a la capa societal. Ninguna organización, regulación o framework por sí solo elimina el riesgo catastrófico. El ecosistema funciona solo cuando:

  • Los laboratorios lanzan políticas de escalado (Lecciones 19, 20).
  • Los evaluadores externos producen mediciones (Lección 21).
  • La sociedad civil rastrea y difunde (CAIS).
  • El gobierno gestiona programas voluntarios y regulaciones básicas (CAISI, SB-53).
  • Los profesionales construyen controles multicapa (Lecciones 10–18).

Esta es la síntesis final de la fase: cada lección anterior es una capa en una pila cuya completitud importa más que la fuerza de cualquier capa individual.

Use It

code/main.py implementa una pequeña herramienta de inventario de riesgos. Dada una propuesta de despliegue, clasifica el despliegue en las cuatro categorías de riesgo y devuelve una lista de verificación de mitigación. Es una ayuda de lectura para el framework, no un sustituto del juicio humano.

Ship It

outputs/skill-societal-risk-review.md revisa la postura de riesgo a escala societal de un despliegue: qué categorías de las cuatro afecta, qué mitigaciones están implementadas y cuál es la exposición al riesgo organizacional.

Exercises

  1. Ejecute code/main.py. Ingrese tres despliegues sintéticos a diferentes escalas. Confirme que las etiquetas de los cuatro riesgos coincidan con lo esperado; identifique un caso en el que la herramienta etiquete de forma insuficiente o excesiva.

  2. Lea el artículo de cuatro riesgos de CAIS completo. Elija una categoría de riesgo y escriba dos párrafos sobre lo que cree que es el desarrollo más importante de 2026 en esa categoría.

  3. Lea un borrador actual de la SB-53 de California. Identifique una disposición que crea que fortalece la postura ante riesgos catastróficos y una que crea que la debilita. Justifique ambas.

  4. Elija un despliegue de IA en producción que conozca (el suyo o uno publicado). Evalúelo en relación con las subpalancas de riesgo organizacional: cultura de seguridad, rigor de la auditoría, defensas multicapa y seguridad de la información. ¿Cuál es la más débil? ¿Cuánto costaría ponerla a la altura?

  5. Esboce una versión de 2028 del framework de cuatro riesgos que refleje un año adicional de capacidad y un año adicional de experiencia de despliegue. ¿Qué agregaría, eliminaría o reagruparía?

Key Terms

Término Lo que la gente dice Lo que realmente significa
CAIS "Center for AI Safety" Organización sin fines de lucro; framework de cuatro riesgos; declaración de extinción de 2023
CAISI "US government AI safety" NIST Center; acuerdos voluntarios; evaluaciones no clasificadas
Framework de cuatro riesgos "CAIS's taxonomy" uso malicioso, carreras de IA, riesgos organizacionales, IAs rebeldes
Uso malicioso "Bad actor uses AI" Armas biológicas, desinformación, ciberataques
Carreras de IA "Competitive pressure" Laboratorios/empresas/naciones fuerzan el despliegue más allá de la seguridad
Riesgo organizacional "Lab internal failure" Cultura de seguridad, auditoría, defensas, seguridad de la información
IA rebelde "Misaligned agent" IA capaz que persigue objetivos que entran en conflicto con el bienestar humano
California SB-53 "State-level regulation" Proyecto de ley de 2025–2026; primera regulación estatal de riesgo catastrófico en EE. UU. si se firma

Further Reading

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).