Phase 18 - Lesson 27

Proveniência de Dados e Governança de Dados de Treinamento

O Regulamento da IA da UE exige padrões de opt-out legíveis por máquina para GPAI até agosto de 2025 (via exceção TDM da Diretiva de Direitos Autorais da UE). A lei AB 2013 da Califórnia (assinada em 2024) — sobre transparência de dados de treinamento de IA generativa — exige que os desenvolvedores publiquem um resumo dos conjuntos de dados com 12 campos obrigatórios. Alinhamento das Autoridades de Proteção de Dados (DPA) em 2025 sobre legítimo interesse: a DPC irlandesa (21 de maio de 2025) aceitou o treinamento do LLM da Meta em conteúdo público de primeira parte de adultos da UE/EEE com salvaguardas, após parecer do EDPB; o Tribunal Regional Superior de Colônia (23 de maio de 2025) indeferiu uma liminar; a DPA de Hamburgo encerrou o procedimento de urgência; o ICO do Reino Unido (23 de setembro de 2025) emitiu uma resposta regulatória positiva às salvaguardas de treinamento de IA do LinkedIn (transparência, opt-out simplificado, janelas de objeção estendidas) e continua monitorando — não se tratando de uma aprovação formal. A ANPD brasileira (2 de julho de 2024) suspendeu o processamento de dados da Meta devido à falta de transparência das informações; a medida preventiva foi suspensa em 30 de agosto de 2024 após a Meta apresentar um plano de conformidade. O problema central da irreversibilidade: as estruturas de consentimento de cookies são projetadas para rastreamento em tempo real e reversível; uma vez que os dados estão nos pesos do modelo, a remoção cirúrgica é impossível — não há direito à exclusão prático sob a LGPD/GDPR para redes neurais treinadas. A janela de conformidade ocorre no momento da coleta. Data Provenance Initiative (dataprovenance.org, Longpre, Mahari, Lee et al., "Consent in Crisis", julho de 2024): auditoria em larga escala mostra declínio rápido do ecossistema de dados abertos para IA à medida que os editores adicionam restrições via robots.txt.

Tipo: Learn Linguagens: Python (stdlib, gerador de estrutura de 12 campos da lei AB 2013 da Califórnia) Pré-requisitos: Phase 18 · 24 (regulatory), Phase 18 · 26 (cards) Tempo: ~60 minutos

Objetivos de Aprendizado

Descrever os 12 campos obrigatórios da lei AB 2013 da Califórnia para a transparência de dados de treinamento de IA generativa.
Apresentar o posicionamento das DPAs em 2025 sobre o treinamento de LLMs com base em legítimo interesse (DPC irlandesa, ICO do Reino Unido, Hamburgo, Colônia).
Descrever o problema da irreversibilidade: por que o direito à exclusão da GDPR/LGPD não possui equivalente prático para redes neurais treinadas.
Apresentar a descoberta "Consent in Crisis" da Data Provenance Initiative.

O Problema

A governança dos dados de treinamento é a etapa a montante (upstream) de qualquer ficha de modelo (Lição 26) e obrigação regulatória (Lição 24). No período de 2024-2025, o cenário regulatório consolidou-se em torno de três princípios: infraestrutura de opt-out, divulgação por conjunto de dados e acomodações baseadas em legítimo interesse para dados publicamente disponíveis. Provedores que não cumprem os requisitos no momento da coleta não conseguem remediar a situação posteriormente.

O Conceito

Lei AB 2013 da Califórnia

Assinada em 2024. A documentação deve ser publicada em ou antes de 1º de janeiro de 2026 para sistemas lançados a partir de 1º de janeiro de 2022. A Seção 3111(a) exige que os desenvolvedores publiquem um resumo de alto nível dos conjuntos de dados usados no treinamento contendo 12 itens estatutários:

Fontes ou proprietários dos conjuntos de dados.
Descrição de como os conjuntos de dados contribuem para o propósito pretendido do sistema de IA.
Número de pontos de dados nos conjuntos de dados (faixas gerais são aceitáveis; estimativas para conjuntos de dados dinâmicos).
Descrição dos tipos de pontos de dados (tipos de rótulos para conjuntos de dados rotulados; características gerais para não rotulados).
Se os conjuntos de dados incluem quaisquer dados protegidos por direitos autorais, marca registrada ou patente, ou se estão totalmente em domínio público.
Se os conjuntos de dados foram comprados ou licenciados.
Se os conjuntos de dados incluem informações pessoais (conforme Cal. Civ. Code §1798.140(v)).
Se os conjuntos de dados incluem informações agregadas de consumidores (conforme Cal. Civ. Code §1798.140(b)).
Limpeza, processamento ou outra modificação feita pelo desenvolvedor, com o propósito pretendido.
Período durante o qual os dados foram coletados, com aviso se a coleta for contínua.
Datas em que os conjuntos de dados foram usados pela primeira vez durante o desenvolvimento.
Se o sistema utiliza ou utiliza continuamente a geração de dados sintéticos.

O Item 12 (dados sintéticos) é novo em relação às datasheets de Gebru et al. 2018. O Item 7 (informações pessoais) aciona obrigações da Lei de Direitos de Privacidade da Califórnia (CPRA). O estatuto isenta sistemas de segurança/integridade, de operação de aeronaves e sistemas federais de segurança nacional (Seção 3111(b)).

Regulamento da IA da UE (Lição 24) e opt-out de TDM

A exceção de mineração de texto e dados (TDM) da Diretiva de Direitos Autorais da UE permite o treinamento em conteúdo publicamente disponível, a menos que o detentor dos direitos faça o opt-out. O capítulo de Direitos Autorais do Código de Conduta de GPAI do Regulamento da IA da UE exige que os provedores de GPAI respeitem os sinais de opt-out legíveis por máquina (robots.txt, declaração C2PA "No AI Training", etc.).

Convergência das DPAs em 2025 sobre legítimo interesse

DPC irlandesa (21 de maio de 2025): plano da Meta para treinar com dados públicos de primeira parte de usuários adultos da UE/EEE aceito com salvaguardas após parecer do EDPB. O Tribunal Regional Superior de Colônia (23 de maio de 2025) indeferiu uma liminar contra a Meta: o opt-out é suficiente. A DPA de Hamburgo encerrou o procedimento de urgência visando a consistência em toda a UE. O ICO do Reino Unido (23 de setembro de 2025) emitiu uma resposta regulatória positiva — não uma aprovação formal — à retomada do treinamento de IA do LinkedIn com salvaguardas semelhantes e monitoramento contínuo.

Princípio convergente: o legítimo interesse pode justificar o treinamento com base em conteúdo de primeira parte publicamente disponível, desde que oferecido o opt-out. O consentimento prévio não é obrigatório.

ANPD brasileira (Julho de 2024)

Suspendeu o processamento de dados de usuários brasileiros pela Meta para treinamento de IA por falta de transparência nas informações. Resultado diferente das DPAs da UE — a ANPD priorizou a transparência como requisito em vez da admissibilidade imediata do legítimo interesse.

O problema da irreversibilidade

O consentimento de cookies foi projetado para rastreamento em tempo real e reversível. Os dados de treinamento funcionam de maneira diferente: uma vez que os dados entram nos pesos do modelo, a remoção cirúrgica não é possível. Treinar novamente do zero é a única remediação completa, e ela é proibitivamente cara.

Remediações parciais:

Desaprendizado (Unlearning). Remoção aproximada; medida por MIA (Lição 22).
Localização baseada em função de influência. Identificar os pesos mais influenciados pelos dados; atualizá-los seletivamente.
Supressão por ajuste fino. Treinar o modelo para recusar saídas derivadas dos dados em questão.

Nenhuma resolve plenamente o problema. A janela de conformidade ocorre no momento da coleta.

Data Provenance Initiative

dataprovenance.org. Longpre, Mahari, Lee et al. "Consent in Crisis" (julho de 2024): auditoria em larga escala dos dados públicos para treinamento de IA. Descoberta: os editores estão adicionando restrições via robots.txt a uma taxa acelerada. O ecossistema de dados abertos para treinamento está encolhendo rapidamente. O período de 2023 -> 2024 viu cerca de 25% das principais fontes de treinamento adicionaram alguma restrição. Implicação: a disponibilidade futura de dados de treinamento depende de novos paradigmas de aquisição (licenciamento, geração sintética, participação incentivada).

Onde isso se encaixa na Fase 18

A Lição 26 aborda a documentação no nível do modelo. A Lição 27 aborda a governança no nível do conjunto de dados. Juntas, elas definem a camada de transparência. A Lição 28 mapeia o ecossistema de pesquisa que trabalha nessas questões.

Use It

code/main.py gera uma estrutura de resumo de conjunto de dados em conformidade com os 12 campos da lei AB 2013 da Califórnia para um conjunto de dados simulado. Você pode preencher os campos e observar quais deles acionam obrigações subsequentes de privacidade ou direitos autorais.

Ship It

Esta lição produz outputs/skill-provenance-check.md. Dado um conjunto de dados usado no treinamento, ela verifica a cobertura dos 12 campos da lei AB 2013, a conformidade com a infraestrutura de opt-out, o alinhamento com as DPAs e a avaliação do risco de irreversibilidade.

Exercícios

Execute code/main.py. Produza um resumo de 12 campos para um conjunto de dados simulado e identifique quais campos estão subespecificados.
O opt-out de TDM da Diretiva de Direitos Autorais da UE é legível por máquina. Proponha um formato padrão para o sinal de opt-out e compare-o com o robots.txt e com o "No AI Training" do C2PA.
Leia o relatório "Consent in Crisis" (julho de 2024) da Data Provenance Initiative. Descreva as três categorias de conteúdo com restrições de crescimento mais rápido e discuta uma consequência econômica.
O alinhamento das DPAs em 2025 aceita o legítimo interesse para o treinamento com conteúdo público. Projete um cenário em que o legítimo interesse não seria suficiente e identifique qual base legal o provedor precisaria em seu lugar.
Esboce um manifesto de proveniência de dados de treinamento que combine os campos da lei AB 2013 e uma cadeia de proveniência assinada por C2PA para cada conjunto de dados. Identifique uma barreira técnica e uma jurídica.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
AB 2013	"A lei da Califórnia"	Transparência de dados de treinamento de IA generativa; 12 campos obrigatórios
Exceção de TDM	"Mineração de texto e dados"	Exceção de dados de treinamento da Diretiva de Direitos Autorais da UE com opt-out
Legítimo interesse	"A base da UE"	Base legal do Artigo 6 do GDPR que pode justificar o treinamento em conteúdos públicos
Sinal de opt-out	"Não treinar legível por máquina"	robots.txt, C2PA "No AI Training", TDM.Reservation
Irreversibilidade	"Não dá para des-treinar"	Dados em pesos de modelos não são cirurgicamente removíveis
Desaprendizado (Unlearning)	"Remoção aproximada"	Intervenções pós-treinamento para reduzir a dependência do modelo em relação a dados específicos
Consent in Crisis	"A auditoria da DPI"	Descoberta de julho de 2024 sobre o acelerado ritmo de restrições via robots.txt

Leitura Adicional

California AB 2013 — Lei de transparência de dados de treinamento de IA generativa
EU AI Act + GPAI Code of Practice (Lição 24) — Capítulo sobre Direitos Autorais
Longpre, Mahari, Lee et al. — Consent in Crisis (dataprovenance.org, julho de 2024) — Auditoria da DPI
IAPP — Emendas da GDPR no EU Digital Omnibus (2025) — Contexto regulatório