Phase 18 - Lesson 23

Marcas de agua — SynthID, Stable Signature, C2PA

Tres tecnologías estructuran la procedencia del contenido generado por IA en 2026. SynthID (Google DeepMind) — marca de agua en imágenes lanzada en agosto de 2023, texto+video en mayo de 2024 (Gemini + Veo), texto de código abierto en octubre de 2024 a través de Responsible GenAI Toolkit, detector multimedia unificado en noviembre de 2025 junto con Gemini 3 Pro. La marca de agua de texto ajusta las probabilidades de muestreo del siguiente token de forma imperceptible; las marcas de agua de imagen/video sobreviven a la compresión, el recorte, los filtros y los cambios de tasa de fotogramas (frame-rate). Stable Signature (Fernandez et al., ICCV 2023, arXiv:2303.15435) — ajusta (fine-tunes) el decodificador de difusión latente para que cada salida contenga un mensaje fijo; las imágenes generadas recortadas (al 10% del contenido) se detectan con >90% de precisión a una FPR<1e-6. El estudio posterior "Stable Signature is Unstable" (arXiv:2405.07145, mayo de 2024) — el ajuste fino elimina la marca de agua preservando la calidad. C2PA — estándar de metadados firmado criptográficamente y a prueba de manipulaciones (C2PA 2.2 Explainer 2025). Las marcas de agua y C2PA son complementarios: los metadados se pueden eliminar pero contienen una procedencia más rica; las marcas de agua persisten a través de la transcodificación pero contienen menos información.

Tipo: Build Lenguajes: Python (stdlib, token-watermark embed + detect) Prerrequisitos: Phase 10 · 04 (sampling), Phase 01 · 09 (information theory) Tiempo: ~75 minutos

Objetivos de Aprendizaje

  • Describir la marca de agua a nivel de token (estilo SynthID-text) y el mecanismo mediante el cual es detectable.
  • Describir Stable Signature y el ataque de eliminación de 2024 que lo vulneró.
  • Explicar la función de C2PA y por qué es complementaria a la marca de agua.
  • Describir las limitaciones clave: señal específica del modelo, robustez bajo paráfrasis y ataques que preservan el significado (arXiv:2508.20228).

El Problema

El período 2023-2024 vio la entrada a gran escala de deepfakes y contenido generado por IA en contextos políticos y de consumo. La marca de agua es la señal de procedencia técnica propuesta: marcar las generaciones en el momento de su creación y detectarlas después. Evidencia de 2025: ninguna marca de agua es incondicionalmente robusta, pero combinada con los metadados de C2PA, la combinación proporciona un historial de procedencia utilizable.

El Concepto

Marca de agua de texto (estilo SynthID-text)

El mecanismo de Kirchenbauer et al. 2023, llevado a producción por Google:

  1. En cada paso de decodificación, se aplica un hash a los $K$ tokens anteriores para producir una partición pseudoaleatoria del vocabulario en conjuntos "verde" (green) y "rojo" (red).
  2. Se introduce un sesgo en el muestreo hacia el conjunto verde sumando $\delta$ a los logits verdes.
  3. La generación contiene más tokens verdes de lo que produciría el azar.

Detección: recalcular el hash de cada prefijo, contar los tokens verdes en la generación y calcular un z-score. El z-score es >0 para texto con marca de agua, y ~0 para texto humano.

Propiedades:

  • Imperceptible para los lectores ($\delta$ es lo suficientemente pequeño como para que la pérdida de calidad sea menor).
  • Detectable con acceso a la función de partición del vocabulario.
  • No es robusto frente a la paráfrasis: reescribir el texto destruye la señal.

SynthID-text fue publicado como código abierto en octubre de 2024 a través de la suite Responsible GenAI Toolkit de Google.

Stable Signature (imagen)

Fernandez et al. ICCV 2023. Ajusta el decodificador de difusión latente para que cada imagen generada contenga un mensaje binario fijo incrustado en la representación latente. La detección se decodifica desde el espacio latente con un decodificador neuronal. Imágenes recortadas (hasta el 10% del contenido) se detectan con una precisión de >90% a una FPR<1e-6.

Mayo de 2024 "Stable Signature is Unstable" (arXiv:2405.07145): el ajuste fino del decodificador elimina la marca de agua mientras preserva la calidad de la imagen. El ajuste fino adversarial post-generación es económico; la robustez adversarial de la marca de agua es limitada.

Detector unificado SynthID (Noviembre de 2025)

Junto con Gemini 3 Pro: un detector multimedia que lee señales de SynthID de texto, imagen, audio y video en una sola API. Unifica la pila de procedencia de Google.

C2PA

Coalition for Content Provenance and Authenticity. Estándar de metadados firmado criptográficamente y a prueba de manipulaciones. C2PA 2.2 Explainer (2025). Un manifiesto C2PA registra declaraciones de procedencia (quién creó, cuándo, qué transformaciones se realizaron) firmadas con la clave del creador.

Complementario a la marca de agua:

  • Los metadados se pueden eliminar; las marcas de agua no (fácilmente).
  • Los metadados son ricos (cadena de procedencia completa); las marcas de agua contienen solo unos pocos bits.
  • C2PA depende de la adopción por parte de las plataformas; las marcas de agua se integran automáticamente.

Google integra ambos en la Búsqueda, Anuncios y "Acerca de esta imagen".

Limitaciones

  • Específico del modelo. SynthID marca generaciones de modelos habilitados para SynthID. Una generación de un modelo sin SynthID no tiene marca de agua, por lo que la "ausencia de señal de SynthID" no es prueba de autenticidad.
  • Paráfrasis. Las marcas de agua de texto no sobreviven a paráfrasis que conservan el significado.
  • Ataques de transformación. arXiv:2508.20228 (2025) muestra ataques que conservan el significado y destruyen tanto las marcas de agua de texto como muchas marcas de agua de imagen.
  • Eliminación por ajuste fino. Según el resultado de "Stable Signature is Unstable", el ajuste fino posterior a la generación elimina las marcas de agua incrustadas.

Artículo 50 de la Ley de IA de la UE (EU AI Act)

Código de Prácticas para el etiquetado de contenido generado por IA (primer borrador en diciembre de 2025, segundo borrador en marzo de 2026, versión final esperada para junio de 2026 según la página de estado de la Comisión Europea). El Código sigue en estado de borrador a fecha de abril de 2026 y el cronograma está sujeto a cambios. La capa regulatoria que exige la capa técnica. Los deepfakes deben estar etiquetados.

Dónde encaja esto en la Fase 18

Las lecciones 22-23 tratan sobre lo que emite el modelo (datos privados, señal de procedencia). La lección 27 aborda la gobernanza de los datos de entrenamiento. La lección 24 es el marco regulatorio que exige estas medidas técnicas.

Use It

code/main.py construye una marca de agua de texto simplificada. Los tokens son enteros de 0 a N-1; el muestreo con marca de agua introduce un sesgo hacia el conjunto verde definido por el hash. Un detector calcula el z-score de los tokens verdes. Puedes observar la detección en generaciones de 1000 tokens, ver cómo la paráfrasis destruye la señal y medir la tasa de falsos positivos en texto humano.

Ship It

Esta lección produce outputs/skill-provenance-audit.md. Dada una implementación de contenido con una declaración de procedencia, audita: el mecanismo de marca de agua (si lo hay), la cadena de firmas de C2PA (si la hay), la robustez adversarial de cada uno y la cobertura por modalidad.

Ejercicios

  1. Ejecuta code/main.py. Reporta los z-scores para la generación de 1000 tokens con marca de agua frente a texto escrito por humanos. Identifica la tasa de falsos positivos en el umbral de confianza del 95%.

  2. Implementa un ataque de paráfrasis que reemplace el 30% de los tokens con sinónimos. Vuelve a medir el z-score.

  3. Lee Kirchenbauer et al. 2023 Sección 6 sobre robustez. ¿Por qué las marcas de agua de texto fallan bajo paráfrasis pero las marcas de agua de imagen sobreviven al recorte?

  4. Diseña una implementación que utilice SynthID-text + metadados de C2PA. Describe la cadena de procedencia que ve el consumidor. Identifica un modo de fallo de cada componente.

  5. El resultado de 2024 "Stable Signature is Unstable" muestra que el ajuste fino elimina la marca de agua de la imagen. Diseña un control de implementación que limite este ataque; por ejemplo, exigir lanzamientos firmados de checkpoints con ajuste fino.

Términos Clave

Término Lo que dice la gente Lo que realmente significa
SynthID "La marca de agua de Google" Señal de procedencia transmodal; texto, imagen, audio, video
Marca de agua de token "Estilo Kirchenbauer" Marca de agua de texto con muestreo sesgado detectable mediante z-score de tokens verdes
Stable Signature "Marca de agua de imagen" Marca de agua con decodificador ajustado (fine-tuned); ICCV 2023
C2PA "El estándar de metadados" Metadados de procedencia firmados criptográficamente y a prueba de manipulaciones
Robustez ante paráfrasis "¿Se rompe si cambio las palabras?" Propiedad de la marca de agua de texto; actualmente limitada
Eliminación por ajuste fino "Desmarcado adversarial" Ataque que elimina la marca de agua de la imagen mediante el ajuste fino del decodificador
Detector transmodal "SynthID unificado" API unificada en noviembre de 2025 para todas las modalidades

Lecturas Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).