Phase 18 - Lesson 26
Fichas de Modelo, Sistema e Conjunto de Dados (Model, System, and Dataset Cards)
Três formatos de documentação estruturam a transparência em IA. Fichas de Modelo (Model Cards, Mitchell et al. 2019) — rótulos nutricionais para modelos: dados de treinamento, análises quantitativas desagregadas, considerações éticas, ressalvas; apenas 0,3% das fichas de modelo no Hugging Face documentam considerações éticas (Oreamuno et al. 2023). Datasheets para Datasets (Gebru et al. 2018, CACM) — motivação, composição, processo de coleta, rotulagem, distribuição, manutenção; analogia com as fichas técnicas de componentes eletrônicos. Fichas de Dados (Data Cards, Pushkarna et al., Google 2022) — detalhes em camadas modulares (telescópica, periscópica e microscópica) como objetos de fronteira para diferentes tipos de leitores. Desenvolvimentos de 2024-2025: geração automatizada por meio de LLMs (CardGen, Liu et al. 2024); o nível de detalhe da ficha de modelo correlaciona-se com um aumento de até 29% nos downloads no HF (Liang et al. 2024); atestações verificáveis (Laminator, Duddu et al. 2024); adições de relatórios de sustentabilidade para pegada de carbono/água (Jouneaux et al. julho de 2025); surgimento de fichas regulatórias da UE/ISO. Fichas de Sistema (System Cards, Sidhpurwala 2024; transparência no nível do sistema da Meta; "Blueprints of Trust" arXiv:2509.20394) — documentação ponta a ponta do sistema de IA cobrindo capacidades de segurança, proteção contra injeção de prompt, detecção de exfiltração de dados e alinhamento com valores humanos.
Tipo: Build Linguagens: Python (stdlib, model-card + datasheet + system-card generator) Pré-requisitos: Phase 18 · 18 (safety frameworks), Phase 18 · 24 (regulatory) Tempo: ~60 minutos
Objetivos de Aprendizado
- Descrever a ficha de modelo original de Mitchell et al. 2019 e a datasheet de Gebru et al. 2018.
- Descrever a divisão em camadas telescópica/periscópica/microscópica das Fichas de Dados (Data Cards).
- Descrever as Fichas de Sistema (System Cards) e sua cobertura ponta a ponta.
- Apresentar três desenvolvimentos de 2024-2025 (geração automatizada, atestações verificáveis, relatórios de sustentabilidade).
O Problema
As estruturas regulatórias (Lição 24) e as políticas de segurança dos laboratórios (Lição 18) exigem documentação. Os formatos de documentação evoluíram de foco específico no modelo (model cards) para foco no dataset (datasheets) e, finalmente, no sistema (system cards). Cada formato atende a um escopo diferente de transparência. Os trabalhos de 2024-2025 sobre automação e atestações verificáveis abordam o problema histórico de adoção dessas documentações.
O Conceito
Fichas de Modelo (Model Cards, Mitchell et al. 2019)
Seções:
- Detalhes do modelo.
- Uso planejado.
- Fatores (fatores demográficos ou ambientais relevantes para a avaliação).
- Métricas.
- Dados de avaliação.
- Dados de treinamento.
- Análises quantitativas (desagregadas por fatores).
- Considerações éticas.
- Ressalvas e recomendações.
O problema da adoção: a auditoria de Oreamuno et al. 2023 sobre as fichas de modelo do Hugging Face revelou que apenas 0,3% delas documentam considerações éticas.
Datasheets para Datasets (Gebru et al. 2018)
Analogia com fichas técnicas de componentes eletrônicos. Seções:
- Motivação (por que o conjunto de dados foi criado).
- Composição (o que está contido nele).
- Processo de coleta (como foi montado).
- Rotulagem (se aplicável).
- Usos (planejados, proibidos, riscos).
- Distribuição.
- Manutenção.
Publicado na CACM em 2021. A datasheet constitui a documentação a montante (upstream); a ficha do modelo depende da precisão da datasheet.
Fichas de Dados (Data Cards, Pushkarna et al., Google 2022)
Detalhes modulares em camadas. Três níveis de zoom:
- Telescópico. Resumo de alto nível para não especialistas.
- Periscópico. Visão geral de nível intermediário para profissionais de ML.
- Microscópico. Documentação detalhada no nível de atributos para auditores.
Abordagem de objeto de fronteira (boundary-object): diferentes leitores extraem informações distintas do mesmo documento.
Fichas de Sistema (System Cards)
Escopo: sistema de IA ponta a ponta, incluindo o modelo + pilha de segurança + contexto de implantação. As seções normalmente cobrem:
- Capacidades de segurança.
- Proteção contra injeção de prompt.
- Detecção de exfiltração de dados.
- Alinhamento com valores humanos declarados.
- Resposta a incidentes.
Trabalhos de Sidhpurwala 2024 e da Meta sobre transparência no nível do sistema. "Blueprints of Trust" (arXiv:2509.20394) formaliza a Ficha de Sistema como o complemento da Ficha de Modelo na camada de implantação.
Desenvolvimentos de 2024-2025
- CardGen (Liu et al. 2024). Geração automatizada de fichas de modelo via LLMs; relata maior objetividade do que muitas fichas escritas por humanos nos campos padronizados de Mitchell 2019.
- Correlação de downloads (Liang et al. 2024). Fichas de modelo detalhadas correlacionam-se com um aumento de até 29% nas taxas de download no HF — o incentivo para adoção passou a ser impulsionado pelo mercado, e não apenas por conformidade regulatória.
- Laminator (Duddu et al. 2024). Atestações verificáveis via TEE de hardware / assinaturas criptográficas — permite que a ficha de modelo carregue uma prova de alegação, não apenas uma afirmação.
- Sustentabilidade (Jouneaux et al. julho de 2025). Adições para pegadas de carbono, água e energia de computação; surgimento de padrões ISO.
- Fichas regulatórias. O capítulo de Transparência do Código de Conduta de GPAI do Regulamento da IA da UE (Lição 24) exige fichas de modelo como um artefato de conformidade.
Onde isso se encaixa na Fase 18
As Lições 24-25 representam as camadas regulatória e de CVE. A Lição 26 é a camada de documentação. A Lição 27 trata da governança de dados de treinamento, que é o estágio a montante da datasheet. A Lição 28 trata do ecossistema de pesquisa que produz as avaliações referenciadas nas fichas.
Use It
code/main.py gera uma ficha de modelo, datasheet e ficha de sistema minimalistas para uma implantação simulada. Cada uma segue a estrutura clássica de seções. Você pode inspecionar o formato e comparar os três escopos.
Ship It
Esta lição produz outputs/skill-card-audit.md. Dada uma ficha de modelo, datasheet ou ficha de sistema, ela audita a cobertura das seções, a desagregação numérica e se há atestações verificáveis presentes.
Exercícios
Execute
code/main.py. Inspecione as fichas geradas. Identifique seções que estejam fracas (apenas placeholders) e especifique quais evidências as fortaleceriam.Expanda a ficha de modelo com uma análise quantitativa desagregada em dois grupos demográficos (Lição 20).
Leia Oreamuno et al. 2023 sobre a taxa de adoção de 0,3%. Proponha uma mudança estrutural na especificação das fichas de modelo que aumentaria a adoção da seção de considerações éticas.
O Laminator (Duddu et al. 2024) utiliza TEEs para atestações verificáveis. Projete um campo na ficha de modelo que carregue uma atestação criptográfica de um resultado de avaliação e descreva a função do verificador.
Escreva uma Ficha de Sistema (Ficha de Sistema, não Ficha de Modelo) para um de seus projetos anteriores ou para uma implantação hipotética. Identifique a seção de maior valor para auditores terceiros.
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| Ficha de Modelo (Model Card) | "A ficha de Mitchell" | Documentação padrão de Mitchell et al. 2019 para modelos de ML |
| Datasheet | "A datasheet de Gebru" | Documentação padrão de Gebru et al. 2018 para conjuntos de dados |
| Ficha de Dados (Data Card) | "A ficha de Pushkarna" | Documentação de dados modular em camadas desenvolvida pelo Google em 2022 |
| Ficha de Sistema (System Card) | "A ficha de implantação" | Documentação do sistema de IA ponta a ponta, incluindo a pilha de segurança |
| Objeto de fronteira | "Diferentes leitores, um doc" | Abordagem das Data Cards: o mesmo documento atende a públicos diversos |
| Atestação verificável | "A atestação do Laminator" | Prova criptográfica ou baseada em TEE anexada a uma alegação da documentação |
| Campo de sustentabilidade | "Pegada de carbono / água" | Adição emergente em 2025 para contabilidade ambiental |
Leitura Adicional
- Mitchell et al. — Model Cards for Model Reporting (arXiv:1810.03993, FAT* 2019) — a ficha de modelo clássica
- Gebru et al. — Datasheets for Datasets (CACM 2021, arXiv:1803.09010) — o artigo sobre datasheets
- Pushkarna et al. — Data Cards (Google 2022) — documentação de dados em camadas
- Sidhpurwala et al. — Blueprints of Trust (arXiv:2509.20394) — formalização da Ficha de Sistema