Phase 18 - Lesson 22

Privacidad Diferencial para LLMs

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

DP-SGD sigue siendo el estándar: las actualizaciones de gradientes con inyección de ruido proporcionan garantías formales de (épsilon, delta). La sobrecarga en computación, memoria y utilidad es sustancial; el ajuste fino de DP eficiente en parámetros (LoRA + DP-SGD) es la configuración común en 2025 (ACM 2025). Dos cuerpos de evidencia en tensión: la inferencia de pertenencia basada en canarios (Duan et al., 2024) reporta un éxito limitado contra los modelos de lenguaje; la extracción de datos de entrenamiento (Carlini et al., 2021; Nasr et al., 2025) recupera una memorización literal sustancial. Resolución (arXiv:2503.06808, marzo de 2025): la brecha está en lo que se mide: canarios insertados frente a los datos "más extraíbles". Los nuevos diseños de canarios permiten MIA basada en pérdidas sin modelos de sombra (shadow models) y producen la primera auditoría de DP no trivial de un LLM entrenado con datos reales con garantías de DP realistas. Alternativas: PMixED (arXiv:2403.15638): predicción privada en el momento de la inferencia mediante mezcla de expertos sobre distribuciones de próximos tokens; generación de datos sintéticos con DP (Google Research 2024). Ataque emergente: Reversión de Privacidad Diferencial a través del Feedback del LLM — fuga de puntuación de confianza (confidence-score leakage).

Tipo: Build Lenguajes: Python (stdlib, demostración de inyección de ruido de DP-SGD y contador ε-δ) Prerrequisitos: Fase 01 · 09 (teoría de la información), Fase 10 · 01 (entrenamiento de grandes modelos) Tiempo: ~60 minutos

Objetivos de Aprendizaje

Definir la privacidad diferencial (épsilon, delta) y presentar la receta de DP-SGD.
Explicar la tensión de 2024-2025: canario MIA vs extracción de datos de entrenamiento proporcionando diferentes panoramas.
Describir PMixED y por qué la precisión privada en el momento de la inferencia es una alternativa al entrenamiento con DP.
Describir el ataque de Reversión de Privacidad Diferencial mediante el Feedback del LLM.

El Problema

Los LLMs memorizan. Carlini et al. 2021 demostraron que los modelos de lenguaje en producción reproducen texto de entrenamiento verbatim bajo demanda. La DP es la defensa formal: entrenar de modo que la salida sea demostrablemente insensible a cualquier ejemplo de entrenamiento individual. La evidencia de 2024-2025 muestra que DP-SGD es necesario, pero los valores de ε desplegados pueden no coincidir con el modelo de amenaza.

El Concepto

(ε, δ)-privacidad diferencial

Un algoritmo aleatorizado M es (ε, δ)-DP si para cualesquiera dos conjuntos de datos que difieren en un ejemplo y cualquier evento S: P(M(D) en S) <= e^ε * P(M(D') en S) + δ.

Interpretación: la distribución de salida es lo suficientemente cercana (parametrizada por ε) como para que la contribución de cualquier individuo no pueda inferirse de manera confiable, excepto con una probabilidad de δ.

DP-SGD

Abadi et al. 2016. La receta estándar:

Muestrear un mini-lote.
Calcular los gradientes por ejemplo.
Recortar (clip) cada gradiente por ejemplo a un umbral C.
Sumar los gradientes recortados y agregar ruido gaussiano con desviación estándar σ * C.
Usar la suma ruidosa para actualizar los parámetros.

El costo de privacidad es rastreado por un contador (Moments Accountant, Rényi DP accountant). Los valores de ε reportados en la literatura de LLMs varían ampliamente según el modelo de amenaza, la sensibilidad de los datos y el objetivo de utilidad; no existe un ε predeterminado universalmente "seguro". Los ejemplos publicados abarcan aproximadamente ε ≈ 1–10 en algunas configuraciones de entrenamiento de LLMs, pero son ilustrativos y no representan valores recomendados. Un ε más bajo generalmente requiere más ruido y puede aumentar la pérdida de utilidad.

LoRA + DP-SGD

El DP-SGD completo de un modelo de frontera es prohibitivo. LoRA (Hu et al. 2022) limita las actualizaciones de gradiente a un adaptador pequeño, reduciendo el almacenamiento de gradientes por ejemplo. LoRA + DP-SGD es la configuración común en 2025. Las garantías de DP se aplican al adaptador; el modelo base se mantiene fijo.

La tensión de 2024-2025

Dos líneas de evidencia:

Canary MIA (Duan et al. 2024). Inserta canarios únicos en los datos de entrenamiento, mide si un atacante de inferencia de pertenencia (membership-inference) puede identificarlos. Reporta un éxito limitado en modelos de lenguaje. Sugiere que MIA es difícil.
Extracción de datos de entrenamiento (Carlini 2021, Nasr et al. 2025). Induce al modelo con un prefijo; mide si recupera texto verbatim del entrenamiento. Reporta una memorización sustancial. Sugiere que MIA es fácil en el sentido relevante.

Resolución de marzo de 2025 (arXiv:2503.06808): los dos miden cosas diferentes. MIA pregunta "¿está el ejemplo e en D?" sobre los canarios insertados. La extracción pregunta "¿qué puedo recuperar de D?". El ejemplo "más extraíble" es lo que importa para la privacidad; los canarios subnotifican esto porque no están optimizados para ser extraíbles.

Nuevos diseños de canarios. MIA basada en pérdidas sin modelos de sombra. Primera auditoria de DP no trivial de un LLM en datos reales con garantías de DP realistas.

Alternativas al entrenamiento con DP

PMixED (arXiv:2403.15638). Predicción privada en el momento de la inferencia. Mezcla de expertos sobre distribuciones de próximos tokens; cada experto ve una partición de los datos de entrenamiento; la agregación añade ruido para DP. Evita el entrenamiento con DP por el completo.
Generación de datos sintéticos con DP (Google Research 2024). Ajuste fino con LoRA mediante DP-SGD, muestrear datos sintéticos, entrenar un clasificador posterior en los datos sintéticos.

Ambos evitan el costo de utilidad del entrenamiento completo con DP a cambio de un modelo de amenaza diferente.

Reversión de Privacidad Diferencial a través del Feedback del LLM

Ataque emergente de 2025. Utiliza las puntuaciones de confianza de un modelo entrenado con DP como un oráculo para volver a identificar individuos. Incluso cuando las salidas no se filtran, las distribuciones de confianza pueden hacerlo.

La defensa: no exponer las confianzas, o truncarlas/cuantizarlas antes de la exposición. Este es un requisito adicional más allá del entrenamiento (ε, δ)-DP.

Dónde encaja esto en la Fase 18

Las Lecciones 20 y 21 son sesgo/equidad. La Lección 22 es privacidad. La Lección 23 es proveniencia a través de marcas de agua. La Lección 27 cubre la capa regulatoria de proveniencia de datos.

Use It

El archivo code/main.py simula DP-SGD en un conjunto de datos ficticio de clasificación binaria. Puedes realizar un barrido del multiplicador de ruido σ y la norma de recorte C y rastrear el presupuesto de (ε, δ) y el costo de precisión. Un "ataque de canario" inserta un ejemplo de entrenamiento único y mide si una prueba de log-loss puede detectarlo antes y después de DP.

Ship It

Esta lección produce outputs/skill-dp-audit.md. Dada una afirmación de DP en el despliegue de un modelo de lenguaje, audita: los valores (ε, δ), el contador utilizado, el protocolo de evaluación de MIA y si se han evaluado los vectores de exposición a la confianza.

Ejercicios

Ejecuta code/main.py. Realiza un barrido de σ en {0.5, 1.0, 2.0} y reporta el trade-off de precisión y (ε, δ). Identifica el punto en el que la utilidad colapsa.
Implementa una inserción de canario y una prueba de log-loss. Mide la tasa de detección antes y después de DP-SGD a σ = 1.0.
Lee Nasr et al. 2025 sobre la extracción de datos de entrenamiento. ¿Por qué el éxito de la extracción no colapsa bajo un ε moderado? ¿Qué implica esto sobre MIA-como-evaluación?
Diseña un despliegue usando PMixED (arXiv:2403.15638) que opere enteramente en el momento de la inferencia. ¿Cuál es el modelo de amenaza que aborda PMixED que DP-SGD no aborda?
Esboza el ataque de Reversión de DP mediante Feedback del LLM. Diseña una contramedida que limite la fuga de puntuaciones de confianza y estima su costo de despliegue.

Términos Clave

Término	Lo que dice la gente	Lo que realmente significa
DP	"(ε, δ)-privacidad diferencial"	Privacidad formal: distribución de salida cercana bajo cambios de conjuntos de datos vecinos
DP-SGD	"SGD con inyección de ruido"	Recorte de gradientes + adición de ruido gaussiano; entrenamiento de DP estándar
LoRA + DP-SGD	"ajuste fino privado eficiente"	DP-SGD en adaptadores de bajo rango; configuración estándar de 2025
MIA	"inferencia de pertenencia"	Ataque que determina si un ejemplo estaba en los datos de entrenamiento
Canario	"ejemplo de marca de agua insertado"	Ejemplo de entrenamiento único utilizado para medir la fuga de DP
PMixED	"mezcla de inferencia privada"	DP en el momento de la inferencia mediante mezcla de expertos sobre distribuciones de próximos tokens
Reversión de DP	"ataque de fuga de confianza"	Ataque que utiliza la confianza de un modelo como un oráculo para la reidentificación

Lecturas Recomendadas

Abadi et al. — DP-SGD (arXiv:1607.00133) — el algoritmo estándar de entrenamiento de DP
Carlini et al. — Extracting Training Data (arXiv:2012.07805) — el artículo canónico sobre extracción
Duan et al. — Canary MIA on LLMs (arXiv:2402.07841, 2024) — MIA de éxito limitado
Kowalczyk et al. — Auditing DP for LLMs (arXiv:2503.06808, March 2025) — resolución de la tensión
PMixED (arXiv:2403.15638) — predicción privada en el momento de la inferencia