Phase 18 - Lesson 22

Privacidade Diferencial para LLMs

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

O DP-SGD continua sendo o padrão — atualizações de gradiente com injeção de ruído fornecem garantias formais de (épsilon, delta). A sobrecarga (overhead) em computação, memória e utilidade é substancial; o ajuste fino de DP eficiente em parâmetros (LoRA + DP-SGD) é a configuração comum em 2025 (ACM 2025). Dois corpos de evidências em tensão: a inferência de pertencimento baseada em canários (Duan et al., 2024) relata sucesso limitado contra modelos de linguagem; a extração de dados de treinamento (Carlini et al., 2021; Nasr et al., 2025) recupera memorização literal substancial. Resolução (arXiv:2503.06808, Março de 2025): a lacuna está no que é medido — canários inseridos vs dados "mais extraíveis". Novos designs de canários permitem MIA baseado em perda sem modelos de sombra (shadow models) e produzem a primeira auditoria de DP não trivial de um LLM treinado em dados reais com garantias de DP realistas. Alternativas: PMixED (arXiv:2403.15638) — previsão privada no momento da inferência via mistura de especialistas sobre distribuições de próximos tokens; geração de dados sintéticos por DP (Google Research 2024). Ataque emergente: Reversão de Privacidade Diferencial via Feedback de LLM — vazamento de pontuação de confiança (confidence-score leakage).

Tipo: Build Linguagens: Python (stdlib, demonstração de injeção de ruído DP-SGD e contador ε-δ) Pré-requisitos: Fase 01 · 09 (teoria da informação), Fase 10 · 01 (treinamento de grandes modelos) Tempo: ~60 minutos

Objetivos de Aprendizado

  • Definir a privacidade diferencial (épsilon, delta) e apresentar a receita do DP-SGD.
  • Explicar a tensão de 2024-2025: canário MIA vs extração de dados de treinamento fornecendo cenários diferentes.
  • Descrever o PMixED e por que a previsão privada no momento da inferência é uma alternativa ao treinamento com DP.
  • Descrever o ataque de Reversão de Privacidade Diferencial via Feedback de LLM.

O Problema

Os LLMs memorizam. Carlini et al. 2021 mostraram que modelos de linguagem em produção reproduzem textos de treinamento literalmente sob demanda. A DP é a defesa formal: treinar de modo que a saída seja comprovadamente insensível a qualquer exemplo de treinamento individual. As evidências de 2024-2025 mostram que o DP-SGD é necessário, mas os valores de ε implantados podem não corresponder ao modelo de ameaça.

O Conceito

(ε, δ)-privacidade diferencial

Um algoritmo aleatorizado M é (ε, δ)-DP se, para quaisquer dois conjuntos de dados que diferem em um único exemplo e qualquer evento S: P(M(D) em S) <= e^ε * P(M(D') em S) + δ.

Interpretação: a distribuição de saída é próxima o suficiente (parametrizada por ε) para que a contribuição de qualquer indivíduo não possa ser inferida com confiabilidade, exceto com probabilidade δ.

DP-SGD

Abadi et al. 2016. A receita padrão:

  1. Amostrar um mini-batch.
  2. Calcular gradientes por exemplo.
  3. Limitar (clip) cada gradiente por exemplo a um limiar C.
  4. Somar os gradientes limitados e adicionar ruído gaussiano com desvio padrão σ * C.
  5. Usar a soma com ruído para atualizar os parâmetros.

O custo de privacidade é rastreado por um contador (Moments Accountant, Rényi DP accountant). Os valores de ε relatados na literatura de LLMs variam amplamente conforme o modelo de ameaça, a sensibilidade dos dados e o alvo de utilidade; não há um ε padrão universalmente "seguro". Os exemplos publicados abrangem aproximadamente ε ≈ 1–10 em algumas configurações de treinamento de LLMs, mas estes são ilustrativos — não são padrões recomendados. Um ε menor geralmente exige mais ruído e pode aumentar a perda de utilidade.

LoRA + DP-SGD

O DP-SGD completo em um modelo de fronteira é proibitivo. O LoRA (Hu et al. 2022) limita as atualizações de gradiente a um adaptador pequeno, reduzindo o armazenamento de gradientes por exemplo. LoRA + DP-SGD é a configuração comum de 2025. As garantias de DP aplicam-se ao adaptador; o modelo base é mantido fixo.

A tensão de 2024-2025

Duas linhas de evidência:

  • Canary MIA (Duan et al. 2024). Insere canários únicos nos dados de treinamento e mede se um atacante de inferência de pertencimento (membership-inference) consegue identificá-los. Relata sucesso limitado em modelos de linguagem. Sugere que o MIA é difícil.
  • Extração de dados de treinamento (Carlini 2021, Nasr et al. 2025). Induz o modelo com um prefixo; mede se ele recupera o texto literal do treinamento. Relata memorização substancial. Sugere que o MIA é fácil no sentido relevante.

Resolução de Março de 2025 (arXiv:2503.06808): ambos medem coisas diferentes. O MIA pergunta "o exemplo e está em D?" sobre os canários inseridos. A extração pergunta "o que posso recuperar de D?". O exemplo "mais extraível" é o que importa para a privacidade; os canários subnotificam isso porque não são otimizados para serem extraíveis.

Novos designs de canários. MIA baseado em perda sem modelos de sombra. Primeira auditoria de DP não trivial de um LLM em dados reais com garantias de DP realistas.

Alternativas ao treinamento com DP

  • PMixED (arXiv:2403.15638). Previsão privada no momento da inferência. Mistura de especialistas em distribuições de próximos tokens; cada especialista vê uma fração dos dados de treinamento; a agregação adiciona ruído para DP. Evita completamente o treinamento com DP.
  • Geração de dados sintéticos por DP (Google Research 2024). Ajuste fino com LoRA via DP-SGD, amostrar dados sintéticos, treinar um classificador posterior nos dados sintéticos.

Ambas as abordagens contornam o custo de utilidade do treinamento DP completo ao custo de um modelo de ameaça diferente.

Reversão de Privacidade Diferencial via Feedback de LLM

Ataque emergente de 2025. Usa as pontuações de confiança de um modelo treinado com DP como um oráculo para identificar novamente os indivíduos. Mesmo quando as saídas não vazam, as distribuições de confiança podem vazar.

A defesa: não expor as confianças, ou truncá-las/quantizá-las antes da exposição. Este é um requisito adicional além do treinamento (ε, δ)-DP.

Onde isso se encaixa na Fase 18

As Lições 20 e 21 cobrem viés/equidade. A Lição 22 é privacidade. A Lição 23 cobre proveniência por marca d'água. A Lição 27 cobre a camada regulatória de proveniência de dados.

Use It

O arquivo code/main.py simula o DP-SGD em um conjunto de dados fictício de classificação binária. Você pode varrer o multiplicador de ruído σ e a norma de corte C e rastrear o orçamento de (ε, δ) e o custo de acurácia. Um "ataque de canário" insere um exemplo de treinamento exclusivo e mede se um teste de log-loss consegue detectá-lo antes e depois da DP.

Ship It

Esta lição produz outputs/skill-dp-audit.md. Dada uma alegação de DP em uma implantação de modelo de linguagem, ela audita: os valores (ε, δ), o contador utilizado, o protocolo de avaliação de MIA e se os vetores de exposição de confiança foram avaliados.

Exercícios

  1. Execute code/main.py. Varra σ em {0.5, 1.0, 2.0} e reporte a compensação de acurácia e (ε, δ). Identifique o ponto em que a utilidade entra em colapso.

  2. Implemente uma inserção de canário e um teste de log-loss. Meça a taxa de detecção antes e depois do DP-SGD a σ = 1.0.

  3. Leia Nasr et al. 2025 sobre a extração de dados de treinamento. Por que o sucesso da extração não colapsa sob um ε moderado? O que isso implica sobre o MIA como avaliação?

  4. Projete uma implantação usando PMixED (arXiv:2403.15638) que opere inteiramente no momento da inferência. Qual é o modelo de ameaça que o PMixED aborda e o DP-SGD não?

  5. Esboce o ataque de Reversão de DP via Feedback de LLM. Projete uma contramedida que limite o vazamento de pontuação de confiança e estime seu custo de implantação.

Termos-Chave

Termo O que dizem O que realmente significa
DP "(ε, δ)-privacidade diferencial" Privacidade formal: distribuição de saída próxima sob alteração de conjunto de dados vizinho
DP-SGD "SGD com injeção de ruído" Recorte de gradiente + adição de ruído gaussiano; treinamento DP padrão
LoRA + DP-SGD "ajuste fino privado eficiente" DP-SGD em adaptadores de baixo posto; configuração padrão de 2025
MIA "inferência de pertencimento" Ataque que determina se um exemplo estava nos dados de treinamento
Canário "exemplo de marca d'água inserido" Exemplo de treinamento exclusivo usado para medir o vazamento de DP
PMixED "mistura de inferência privada" DP no momento da inferência via mistura de especialistas sobre distribuições de próximos tokens
Reversão de DP "ataque de vazamento de confiança" Ataque que usa a confiança de um modelo como um oráculo para identificação posterior

Leituras Recomendadas

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).