Phase 18 - Lesson 27

Procedencia de Datos y Gobernanza de los Datos de Entrenamiento

La Ley de IA de la UE exige estándares de exclusión (opt-out) legibles por máquina para GPAI para agosto de 2025 (a través de la excepción de TDM de la Directiva de Derechos de Autor de la UE). Ley AB 2013 de California (firmada en 2024) — transparencia en los datos de entrenamiento de IA generativa — exige que los desarrolladores publiquen un resumen de los conjuntos de datos con 12 campos obligatorios. Alineamiento de las Autoridades de Protección de Datos (DPA) en 2025 sobre el interés legítimo: la DPC irlandesa (21 de mayo de 2025) acepta el entrenamiento del LLM de Meta en contenido público de primera parte de usuarios adultos de la UE/EEE con salvaguardas, tras un dictamen del EDPB; el Tribunal Regional Superior de Colonia (23 de mayo de 2025) desestima una medida cautelar; la DPA de Hamburgo descarta el procedimiento de urgencia buscando coherencia en toda la UE; el ICO del Reino Unido (23 de septiembre de 2025) emite una respuesta regulatoria positiva a las salvaguardas de entrenamiento de IA de LinkedIn (transparencia, exclusión simplificada, ventanas de objeción ampliadas) y continúa con la supervisión — no es una aprobación formal. La ANPD brasileña (2 de julio de 2024) suspendió el procesamiento de Meta por falta de transparencia en la información; la medida preventiva se levantó el 30 de agosto de 2024 después de que Meta presentara un plan de cumplimiento. Problema clave de irreversibilidad: los marcos de consentimiento de cookies están diseñados para el seguimiento en tiempo real y reversible; una vez que los datos entran en los pesos del modelo, la eliminación quirúrgica es imposible — no existe un derecho de supresión práctico bajo el RGPD/LGPD para redes neuronales entrenadas. La ventana de cumplimiento es en el momento de la recolección. Data Provenance Initiative (dataprovenance.org, Longpre, Mahari, Lee et al., "Consent in Crisis", julio de 2024): una auditoría a gran escala muestra un declive rápido del ecosistema de datos abiertos para la IA a medida que los editores añaden restricciones en robots.txt.

Tipo: Learn Lenguajes: -- Prerrequisitos: Phase 18 · 24 (regulatory), Phase 18 · 26 (cards) Tiempo: ~60 minutos

Objetivos de Aprendizaje

  • Describir los 12 campos obligatorios de la ley AB 2013 de California para la transparencia en los datos de entrenamiento de IA generativa.
  • Indicar la postura de las DPA en 2025 sobre el entrenamiento de LLM basado en interés legítimo (DPC de Irlanda, ICO del Reino Unido, Hamburgo, Colonia).
  • Describir el problema de la irreversibilidad: por qué el derecho de supresión del RGPD no tiene un equivalente práctico para las redes neuronales entrenadas.
  • Presentar la conclusión del informe "Consent in Crisis" de la Data Provenance Initiative.

El Problema

La gobernanza de los datos de entrenamiento representa la fase inicial (upstream) de cualquier tarjeta de modelo (Lección 26) y obligación regulatoria (Lección 24). En 2024-2025, el panorama regulatorio se consolidó en torno a tres principios: infraestructura de exclusión (opt-out), divulgación por conjunto de datos y adaptaciones de interés legítimo para los datos de acceso público. Los proveedores que no cumplan con esto en el momento de la recolección no podrán remediarlo más adelante.

El Concepto

Ley AB 2013 de California

Firmada en 2024. La documentación debe publicarse a más tardar el 1 de enero de 2026 para los sistemas lanzados a partir del 1 de enero de 2022. La Sección 3111(a) exige a los desarrolladores publicar un resumen de alto nivel de los conjuntos de datos utilizados en el entrenamiento con 12 puntos obligatorios por ley:

  1. Fuentes o propietarios de los conjuntos de datos.
  2. Descripción de cómo los conjuntos de datos contribuyen al propósito previsto del sistema de IA.
  3. Número de puntos de datos en los conjuntos de datos (se aceptan rangos generales; estimaciones para conjuntos de datos dinámicos).
  4. Descripción de los tipos de puntos de datos (tipos de etiquetas para conjuntos de datos etiquetados; características generales para no etiquetados).
  5. Si los conjuntos de datos contienen datos protegidos por derechos de autor, marcas registradas o patentes, o si pertenecen enteramente al dominio público.
  6. Si los conjuntos de datos fueron comprados o adquiridos bajo licencia.
  7. Si los conjuntos de datos contienen información personal (según el Cal. Civ. Code §1798.140(v)).
  8. Si los conjuntos de datos contienen información agregada del consumidor (según el Cal. Civ. Code §1798.140(b)).
  9. Limpieza, procesamiento u otra modificación realizada por el desarrollador, indicando su propósito.
  10. Período durante el cual se recopilaron los datos, avisando si la recopilación es continua.
  11. Fechas en que se utilizaron por primera vez los conjuntos de datos durante el desarrollo.
  12. Si el sistema utiliza o utiliza continuamente la generación de datos sintéticos.

El Item 12 (datos sintéticos) es nuevo en relación con las hojas de datos de Gebru et al. 2018. El Item 7 (información personal) activa obligaciones de la Ley de Derechos de Privacidad de California (CPRA). La ley exime a los sistemas de seguridad/integridad, de operaciones aéreas y a los sistemas de seguridad nacional puramente federales (Sección 3111(b)).

Ley de IA de la UE (Lección 24) y exclusión (opt-out) de TDM

La excepción de minería de textos y datos (TDM) de la Directiva de Derechos de Autor de la UE permite el entrenamiento en contenidos disponibles públicamente a menos que el titular de los derechos ejerza la exclusión. El capítulo de Derechos de Autor del Código de Prácticas de GPAI de la Ley de IA de la UE exige que los proveedores de GPAI respeten las señales de exclusión legibles por máquina (robots.txt, declaración de C2PA "No AI Training", etc.).

Convergencia de las DPA en 2025 sobre el interés legítimo

DPC de Irlanda (21 de mayo de 2025): se acepta el plan de Meta de entrenar con contenido público de primera parte de usuarios adultos de la UE/EEE con salvaguardas tras el dictamen del EDPB. El Tribunal Regional Superior de Colonia (23 de mayo de 2025) desestima la demanda de medida cautelar contra Meta: la exclusión voluntaria es suficiente. La DPA de Hamburgo retira el procedimiento de urgencia para lograr coherencia en la UE. El ICO del Reino Unido (23 de septiembre de 2025) emitió una respuesta regulatoria positiva — no una aprobación formal — a la reanudación del entrenamiento de IA de LinkedIn con salvaguardas similares y supervisión continua.

Principio convergente: el interés legítimo puede justificar el entrenamiento con contenido de primera parte disponible públicamente, si se proporciona una opción de exclusión. No se requiere consentimiento previo.

ANPD brasileña (Julio de 2024)

Suspendió el procesamiento de datos de usuarios brasileños por parte de Meta para el entrenamiento de IA debido a la falta de transparencia en la información. Resultado diferente al de las DPA de la UE: la ANPD priorizó la transparencia de la información sobre la admisibilidad del interés legítimo.

El problema de la irreversibilidad

El consentimiento de cookies se diseñó para el seguimiento en tiempo real y reversible. Los datos de entrenamiento son diferentes: una vez que la información entra en los pesos del modelo, no es posible realizar una eliminación quirúrgica. Volver a entrenar desde cero es la única solución completa y resulta prohibitivamente costoso.

Soluciones parciales:

  • Desaprendizaje (Unlearning). Eliminación aproximada; medida mediante MIA (Lección 22).
  • Localización basada en funciones de influencia. Identificar los pesos más influenciados por los datos; actualizarlos selectivamente.
  • Supresión mediante ajuste fino. Entrenar al modelo para que rechace salidas derivadas de los datos en cuestión.

Ninguna resuelve el problema por completo. La ventana de cumplimiento es al momento de la recolección.

Data Provenance Initiative

dataprovenance.org. Longpre, Mahari, Lee et al. "Consent in Crisis" (julio de 2024): auditoría a gran escala de los repositorios comunes de entrenamiento de IA. Conclusión: los editores están añadiendo restricciones en robots.txt a un ritmo acelerado. El repositorio abierto para entrenamiento se está contrayendo rápidamente. Entre 2023 y 2024, aproximadamente el 25% de las principales fuentes de entrenamiento añadieron alguna restricción. Implicación: la disponibilidad futura de datos de entrenamiento depende de nuevos paradigmas de adquisición (licencias, generación de datos sintéticos, participación incentivada).

Dónde encaja esto en la Fase 18

La Lección 26 es la documentación a nivel de modelo. La Lección 27 es la gobernanza a nivel de conjunto de datos. Juntas definen la capa de transparencia. La Lección 28 describe el ecosistema de investigación que trabaja en estos temas.

Use It

code/main.py genera una plantilla de resumen de conjunto de datos con 12 campos que cumple con la ley AB 2013 de California para un conjunto de datos de prueba. Puedes completar los campos y observar cuáles de ellos activan obligaciones derivadas de privacidad o propiedad intelectual.

Ship It

Esta lección produce outputs/skill-provenance-check.md. Dado un conjunto de datos utilizado en el entrenamiento, verifica la cobertura de los 12 campos de la ley AB 2013, el cumplimiento de la infraestructura de exclusión (opt-out), la alineación con las DPA y la evaluación de riesgos de irreversibilidad.

Ejercicios

  1. Ejecuta code/main.py. Produce un resumen de 12 campos para un conjunto de datos de prueba e identifica qué campos no están completamente especificados.

  2. La exclusión voluntaria de TDM de la Directiva de Derechos de Autor de la UE es legible por máquina. Propón un formato estándar para la señal de exclusión y compáralo con robots.txt y "No AI Training" de C2PA.

  3. Lee el informe "Consent in Crisis" de la Data Provenance Initiative (julio de 2024). Describe las tres categorías de contenido con mayor velocidad de restricción y argumenta una consecuencia económica de ello.

  4. El consenso de las DPA en 2025 acepta el interés legítimo para el entrenamiento con contenido público. Diseña un escenario en el que el interés legítimo no sería suficiente e identifica qué base jurídica necesitaría un proveedor en su lugar.

  5. Diseña una plantilla de procedencia de datos de entrenamiento que combine los campos de la ley AB 2013 y una cadena de procedencia firmada por C2PA para cada conjunto de datos. Identifica un obstáculo técnico y uno legal.

Términos Clave

Término Lo que dice la gente Lo que realmente significa
AB 2013 "la ley de California" Transparencia de datos de entrenamiento de IA generativa; 12 campos obligatorios
Excepción de TDM "minería de textos y datos" Excepción de datos de entrenamiento de la Directiva de Derechos de Autor de la UE con opt-out
Interés legítimo "la base de la UE" Base jurídica del Artículo 6 del RGPD que puede justificar el entrenamiento con contenidos públicos
Señal de exclusión "no entrenar legible por máquina" robots.txt, C2PA "No AI Training", TDM.Reservation
Irreversibilidad "no se puede desentrenar" Los datos en los pesos del modelo no se pueden eliminar quirúrgicamente
Desaprendizaje (Unlearning) "eliminación aproximada" Intervenciones posteriores al entrenamiento para reducir la dependencia del modelo respecto a datos específicos
Consent in Crisis "la auditoría de DPI" Hallazgo de julio de 2024 sobre la aceleración de las restricciones en robots.txt

Lecturas Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).