Phase 18 - Lesson 26

Tarjetas de Modelo, Sistema y Conjunto de Datos (Model, System, and Dataset Cards)

Tres formatos de documentación estructuran la transparencia en la IA. Tarjetas de Modelo (Model Cards, Mitchell et al. 2019) — etiquetas nutricionales para modelos: datos de entrenamiento, análisis cuantitativos desagregados, consideraciones éticas, advertencias; solo el 0.3% de las tarjetas de modelo de Hugging Face documentan consideraciones éticas (Oreamuno et al. 2023). Hojas de Datos para Conjuntos de Datos (Datasheets for Datasets, Gebru et al. 2018, CACM) — motivación, composición, proceso de recolección, etiquetado, distribución, mantenimiento; analogía con las hojas de datos de componentes electrónicos. Tarjetas de Datos (Data Cards, Pushkarna et al., Google 2022) — detalle modular estructurado en capas (telescópico, periscópico, microscópico) como objetos de frontera para diversos lectores. Desarrollos de 2024-2025: generación automatizada mediante LLM (CardGen, Liu et al. 2024); el nivel de detalle de las tarjetas de modelo se correlaciona con un aumento de hasta un 29% en las descargas en HF (Liang et al. 2024); certificaciones verificables (Laminator, Duddu et al. 2024); adiciones de informes de sostenibilidad para la huella de carbono/agua (Jouneaux et al. julio de 2025); aparición de tarjetas regulatorias de la UE/ISO. Tarjetas de Sistema (System Cards, Sidhpurwala 2024; transparencia a nivel de sistema de Meta; "Blueprints of Trust" arXiv:2509.20394) — documentación de extremo a extremo del sistema de IA que cubre capacidades de seguridad, protección contra inyección de prompts, detección de exfiltración de datos y alineación con los valores humanos.

Tipo: Build Lenguajes: Python (stdlib, model-card + datasheet + system-card generator) Prerrequisitos: Phase 18 · 18 (safety frameworks), Phase 18 · 24 (regulatory) Tiempo: ~60 minutos

Objetivos de Aprendizaje

  • Describir la tarjeta de modelo original de Mitchell et al. 2019 y la hoja de datos de Gebru et al. 2018.
  • Describir las tres capas telescópica/periscópica/microscópica de las Tarjetas de Datos (Data Cards).
  • Describir las Tarjetas de Sistema (System Cards) y su cobertura integral.
  • Indicar tres avances de 2024-2025 (generación automatizada, certificaciones verificables, informes de sostenibilidad).

El Problema

Tanto los marcos regulatorios (Lección 24) como las políticas de seguridad de los laboratorios (Lección 18) exigen documentación. Los formatos de documentación evolucionaron desde un enfoque específico del modelo (model cards) a uno del conjunto de datos (datasheets) y, finalmente, del sistema (system cards). Cada uno aborda un ámbito diferente de transparencia. El trabajo sobre automatización y certificaciones verificables de 2024-2025 aborda el histórico problema de adopción de estas iniciativas.

El Concepto

Tarjetas de Modelo (Model Cards, Mitchell et al. 2019)

Secciones:

  • Detalles del modelo.
  • Uso previsto.
  • Factores (factores demográficos o ambientales relevantes para la evaluación).
  • Métricas.
  • Datos de evaluación.
  • Datos de entrenamiento.
  • Análisis cuantitativos (desagregados por factores).
  • Consideraciones éticas.
  • Advertencias y recomendaciones.

Problema de adopción: la auditoría de Oreamuno et al. 2023 de las tarjetas de modelo de Hugging Face encontró que solo el 0.3% documenta consideraciones éticas.

Hojas de Datos para Conjuntos de Datos (Datasheets for Datasets, Gebru et al. 2018)

Analogía con las hojas de datos de electrónica. Secciones:

  • Motivación (por qué se creó el conjunto de datos).
  • Composición (qué contiene).
  • Proceso de recolección (cómo se ensambló).
  • Etiquetado (si aplica).
  • Usos (previstos, prohibidos, riesgos).
  • Distribución.
  • Mantenimiento.

Publicado en CACM 2021. La hoja de datos representa la documentación inicial (upstream); la tarjeta del modelo depende de que la hoja de datos sea precisa.

Tarjetas de Datos (Data Cards, Pushkarna et al., Google 2022)

Detalle modular por capas. Tres niveles de zoom:

  • Telescópico. Resumen de alto nivel para no expertos.
  • Periscópico. Descripción general de nivel medio para profesionales de ML.
  • Microscópico. Documentación detallada a nivel de características para auditores.

Enfoque de objeto de frontera (boundary-object): diferentes lectores extraen información distinta del mismo documento.

Tarjetas de Sistema (System Cards)

Ámbito: sistema de IA de extremo a extremo, que incluye el modelo + la pila de seguridad + el contexto de implementación. Las secciones suelen incluir:

  • Capacidades de seguridad.
  • Protección contra inyección de prompts.
  • Detección de exfiltración de datos.
  • Alineación con los valores humanos declarados.
  • Respuesta ante incidentes.

Trabajo sobre transparencia a nivel de sistema de Sidhpurwala 2024 y Meta. "Blueprints of Trust" (arXiv:2509.20394) formaliza la Tarjeta de Sistema como el complemento de la capa de implementación para las Tarjetas de Modelo.

Avances de 2024-2025

  • CardGen (Liu et al. 2024). Generación automatizada de tarjetas de modelo mediante LLM; reporta una mayor objetividad que muchas tarjetas escritas por humanos en los campos estándar de Mitchell 2019.
  • Correlación de descargas (Liang et al. 2024). Las tarjetas de modelo detalladas se correlacionan con tasas de descarga de hasta un 29% más altas en HF — la presión para su adopción ahora está impulsada por el mercado y no solo por el cumplimiento normativo.
  • Laminator (Duddu et al. 2024). Certificaciones verificables mediante TEE de hardware / firmas criptográficas: permite que la tarjeta de modelo contenga una prueba de la afirmación, no solo una declaración.
  • Sostenibilidad (Jouneaux et al. julio de 2025). Adiciones para la huella de carbono, agua y energía de cómputo; aparición de estándares ISO.
  • Tarjetas regulatorias. El capítulo de Transparencia del Código de Prácticas de GPAI de la Ley de IA de la UE (Lección 24) requiere tarjetas de modelo como artefacto de cumplimiento.

Dónde encaja esto en la Fase 18

Las Lecciones 24-25 son las capas regulatorias y de CVE. La Lección 26 es la capa de documentación. La Lección 27 es la gobernanza de los datos de entrenamiento, que es la fase inicial (upstream) de la hoja de datos. La Lección 28 es el ecosistema de investigación que genera las evaluaciones referenciadas en las tarjetas.

Use It

code/main.py genera una tarjeta de modelo, hoja de datos y tarjeta de sistema minimalistas para una implementación de prueba. Cada una sigue la estructura clásica de secciones. Puedes inspeccionar el formato y comparar los tres ámbitos.

Ship It

Esta lección produce outputs/skill-card-audit.md. Dada una tarjeta de modelo, hoja de datos o tarjeta de sistema, audita la cobertura de las secciones, la desagregación numérica y la presencia de certificaciones verificables.

Ejercicios

  1. Ejecuta code/main.py. Inspecciona las tarjetas generadas. Identifica las secciones que son débiles (solo marcadores de posición) y especifica qué pruebas las fortalecerían.

  2. Amplía la tarjeta de modelo con un análisis cuantitativo desagregado en dos grupos demográficos (Lección 20).

  3. Lee Oreamuno et al. 2023 sobre la tasa de adopción del 0.3%. Propón un cambio estructural en la especificación de las tarjetas de modelo que aumente la adopción de la sección de consideraciones éticas.

  4. Laminator (Duddu et al. 2024) utiliza TEE para certificaciones verificables. Diseña un campo en la tarjeta de modelo que contenga una certificación criptográfica del resultado de una evaluación y describe la función del verificador.

  5. Escribe una Tarjeta de Sistema (Tarjeta de Sistema, no Tarjeta de Modelo) para uno de tus proyectos anteriores o para una implementación hipotética. Identifica la sección de mayor valor para auditores externos.

Términos Clave

Término Lo que dice la gente Lo que realmente significa
Tarjeta de Modelo (Model Card) "la tarjeta de Mitchell" Documentación estándar de Mitchell et al. 2019 para modelos de ML
Hoja de Datos (Datasheet) "la hoja de datos de Gebru" Documentación estándar de Gebru et al. 2018 para conjuntos de datos
Tarjeta de Datos (Data Card) "la tarjeta de Pushkarna" Documentación de datos estructurada en capas de Google 2022
Tarjeta de Sistema (System Card) "la tarjeta de implementación" Documentación del sistema de IA de extremo a extremo que incluye la pila de seguridad
Objeto de frontera "diferentes lectores, un doc" Enfoque de las Tarjetas de Datos: el mismo documento sirve a audiencias diversas
Certificación verificable "la certificación de Laminator" Prueba criptográfica o basada en TEE adjunta a una afirmación de la documentación
Campo de sostenibilidad "huella de carbono / agua" Adición emergente en 2025 para la contabilidad ambiental

Lecturas Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).