Phase 18 - Lesson 23

Marcas d'água — SynthID, Stable Signature, C2PA

Três tecnologias estruturam a proveniência de conteúdo gerado por IA em 2026. SynthID (Google DeepMind) — marca d'água em imagens lançada em agosto de 2023, texto+vídeo em maio de 2024 (Gemini + Veo), texto em código aberto em outubro de 2024 via Responsible GenAI Toolkit, detector multimídia unificado em novembro de 2025 junto com o Gemini 3 Pro. A marca d'água de texto ajusta as probabilidades de amostragem do próximo token imperceptivelmente; as marcas d'água de imagem/vídeo sobrevivem à compressão, corte, filtros, alterações de taxa de quadros (frame-rate). Stable Signature (Fernandez et al., ICCV 2023, arXiv:2303.15435) — ajusta (fine-tunes) o decodificador de difusão latente para que cada saída contenha uma mensagem fixa; imagens geradas cortadas (10% do conteúdo) são detectadas com >90% a uma FPR<1e-6. O estudo subsequente "Stable Signature is Unstable" (arXiv:2405.07145, maio de 2024) — o ajuste fino remove a marca d'água preservando a qualidade. C2PA — padrão de metadados criptograficamente assinados e à prova de adulteração (C2PA 2.2 Explainer 2025). Marcas d'água e C2PA são complementares: metadados podem ser removidos, mas carregam uma proveniência mais rica; marcas d'água persistem através de transcodificação, mas carregam menos informações.

Tipo: Build Linguagens: Python (stdlib, token-watermark embed + detect) Pré-requisitos: Phase 10 · 04 (sampling), Phase 01 · 09 (information theory) Tempo: ~75 minutos

Objetivos de Aprendizado

Descrever a inserção de marca d'água no nível do token (estilo SynthID-text) e o mecanismo pelo qual ela é detectável.
Descrever o Stable Signature e o ataque de remoção de 2024 que o quebrou.
Explicar a função do C2PA e por que ele é complementar à inserção de marcas d'água.
Descrever as principais limitações: sinal específico do modelo, robustez sob paráfrase e ataques que preservam o significado (arXiv:2508.20228).

O Problema

O período de 2023-2024 viu deepfakes e conteúdos gerados por IA entrarem em contextos políticos e de consumo em larga escala. A marca d'água é o sinal de proveniência técnica proposto: marcar as gerações no momento da criação e detectá-las posteriormente. Evidências de 2025: nenhuma marca d'água é incondicionalmente robusta, mas, combinada com os metadados do C2PA, essa camada dupla oferece uma história de proveniência viável.

O Conceito

Marca d'água de texto (estilo SynthID-text)

O mecanismo de Kirchenbauer et al. 2023, colocado em produção pelo Google:

A cada etapa de decodificação, faz-se o hash dos $K$ tokens anteriores para gerar uma partição pseudoaleatória do vocabulário em conjuntos "verde" (green) e "vermelho" (red).
Modifica-se o viés da amostragem em direção ao conjunto verde adicionando $\delta$ aos logits verdes.
A geração contém mais tokens verdes do que o acaso produziria.

Detecção: recalcular o hash de cada prefixo, contar os tokens verdes na geração e calcular um z-score. O z-score é >0 para textos com marca d'água e ~0 para textos humanos.

Propriedades:

Imperceptível para os leitores ($\delta$ é pequeno o suficiente para que a perda de qualidade seja mínima).
Detectável com acesso à função de partição do vocabulário.
Não é robusto contra paráfrase — reescrever o texto destrói o sinal.

O SynthID-text foi disponibilizado em código aberto em outubro de 2024 por meio do Responsible GenAI Toolkit do Google.

Stable Signature (imagem)

Fernandez et al. ICCV 2023. Ajusta o decodificador de difusão latente para que cada imagem gerada contenha uma mensagem binária fixa embutida na representação latente. A detecção é decodificada a partir do espaço latente com um decodificador neural. Imagens cortadas (até 10% do conteúdo) são detectadas com >90% de precisão a uma FPR<1e-6.

Maio de 2024 "Stable Signature is Unstable" (arXiv:2405.07145): o ajuste fino do decodificador remove a marca d'água mantendo a qualidade da imagem. O ajuste fino adversarial pós-geração é barato; a robustez adversarial da marca d'água é limitada.

Detector unificado SynthID (Novembro de 2025)

Junto com o Gemini 3 Pro: um detector multimídia que lê sinais do SynthID de texto, imagem, áudio e vídeo em uma única API. Unifica a pilha de proveniência do Google.

C2PA

Coalition for Content Provenance and Authenticity. Padrão de metadados assinado criptograficamente e à prova de adulteração. C2PA 2.2 Explainer (2025). Um manifesto C2PA registra declarações de proveniência (quem criou, quando, quais transformações ocorreram) assinadas com a chave do criador.

Complementar à marca d'água:

Os metadados podem ser removidos; marcas d'água não (facilmente).
Os metadados são ricos (cadeia de proveniência completa); marcas d'água carregam apenas alguns bits.
O C2PA depende da adoção das plataformas; marcas d'água são incorporadas automaticamente.

O Google integra ambos na Busca, Anúncios e "Sobre esta imagem".

Limitações

Específico do modelo. O SynthID marca gerações de modelos habilitados para SynthID. Uma geração de um modelo sem SynthID não tem marca d'água, logo, a "ausência de sinal do SynthID" não é prova de autenticidade.
Paráfrase. Marcas d'água de texto não sobrevivem a paráfrases que preservam o significado.
Ataques de transformação. arXiv:2508.20228 (2025) mostra ataques que preservam o significado e destroem marcas d'água de texto e várias marcas d'água de imagem.
Remoção por ajuste fino. Conforme o resultado "Stable Signature is Unstable", o ajuste fino pós-geração remove marcas d'água embutidas.

Artigo 50 do Regulamento da IA da UE (EU AI Act)

Código de Conduta para rotulagem de conteúdo gerado por IA (primeira versão em dezembro de 2025, segunda versão em março de 2026, versão final esperada para junho de 2026, de acordo com a página de status da Comissão Europeia). O Código continua em versão preliminar até abril de 2026 e o cronograma está sujeito a alterações. A camada regulatória que exige a camada técnica. Deepfakes devem ser rotulados.

Onde isso se encaixa na Fase 18

As lições 22-23 tratam do que o modelo emite (dados privados, sinal de proveniência). A lição 27 aborda a governança dos dados de treinamento. A lição 24 apresenta a estrutura regulatória que exige essas medidas técnicas.

Use It

code/main.py constrói uma marca d'água de texto simplificada. Os tokens são inteiros de 0 a N-1; a amostragem com marca d'água introduz um viés em direção ao conjunto verde definido pelo hash. Um detector calcula o z-score dos tokens verdes. Você pode observar a detecção em gerações de 1000 tokens, ver a paráfrase destruir o sinal e medir a taxa de falsos positivos em texto humano.

Ship It

Esta lição produz outputs/skill-provenance-audit.md. Dada uma implantação de conteúdo com uma declaração de proveniência, ela audita: o mecanismo de marca d'água (se houver), a cadeia de assinaturas C2PA (se houver), a robustez adversarial de cada um e a cobertura por modalidade.

Exercícios

Execute code/main.py. Relate os z-scores para a geração de 1000 tokens com marca d'água versus texto de autoria humana. Identifique a taxa de falsos positivos no limiar de confiança de 95%.
Implemente um ataque de paráfrase que substitua 30% dos tokens por sinônimos. Meça novamente o z-score.
Leia Kirchenbauer et al. 2023 Seção 6 sobre robustez. Por que as marcas d'água de texto falham sob paráfrase, mas as marcas d'água de imagem sobrevivem ao corte?
Projete uma implantação que utilize SynthID-text + metadados C2PA. Descreva a cadeia de proveniência que o consumidor vê. Identifique um modo de falha de cada componente.
O resultado de 2024 "Stable Signature is Unstable" mostra que o ajuste fino remove a marca d'água da imagem. Projete um controle de implantação que limite esse ataque — por exemplo, exigir lançamentos assinados de checkpoints ajustados.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
SynthID	"A marca d'água do Google"	Sinal de proveniência transmodal; texto, imagem, áudio, vídeo
Marca d'água de token	"Estilo Kirchenbauer"	Marca d'água de texto com amostragem enviesada detectável por z-score de tokens verdes
Stable Signature	"Marca d'água de imagem"	Marca d'água com decodificador ajustado (fine-tuned); ICCV 2023
C2PA	"O padrão de metadados"	Metadados de proveniência à prova de adulteração e assinados criptograficamente
Robustez a paráfrase	"Mudar as palavras quebra?"	Propriedade da marca d'água de texto; atualmente limitada
Remoção por ajuste fino	"Remoção de marca d'água adversarial"	Ataque que remove a marca d'água da imagem via ajuste fino do decodificador
Detector transmodal	"SynthID unificado"	API unificada em novembro de 2025 que abrange diferentes modalidades

Leitura Adicional

Kirchenbauer et al. — A Watermark for Large Language Models (ICML 2023, arXiv:2301.10226) — o mecanismo de marca d'água de tokens
Fernandez et al. — Stable Signature (ICCV 2023, arXiv:2303.15435) — artigo sobre marca d'água em imagens
"Stable Signature is Unstable" (arXiv:2405.07145) — o ataque de remoção
Google DeepMind — SynthID — a marca d'água transmodal
C2PA 2.2 Explainer (2025) — padrão de metadados