Phase 18 - Lesson 16

Ferramentas de Red-Team — Garak, Llama Guard, PyRIT

Três ferramentas de produção compõem a stack de red-team de 2026. Llama Guard (Meta) — um classificador Llama-3.1-8B ajustado em 14 categorias de risco do MLCommons; o Llama Guard 4 de 2025 é um classificador nativamente multimodal de 12B podado a partir do Llama 4 Scout. Garak (NVIDIA) — scanner de vulnerabilidades de LLM de código aberto com sondas estáticas, dinâmicas e adaptativas para alucinação, vazamento de dados, injeção de prompt, toxicidade e jailbreaks. PyRIT (Microsoft) — campanhas de red-team de múltiplos turnos com Crescendo, TAP e cadeias de conversores personalizadas para exploração profunda. O Llama Guard 3 está documentado em "Llama 3 Herd of Models" da Meta (arXiv:2407.21783); o Llama Guard 3-1B-INT4 em arXiv:2411.17713; e a arquitetura de sondas do Garak em github.com/NVIDIA/garak. Essas ferramentas são a interface de produção de 2026 entre a pesquisa de red-team (Lições 12-15) e a implantação (Lição 17+).

Tipo: Build Idiomas: Python (stdlib, simulador de arquitetura de ferramentas e mock de classificador no estilo Llama Guard) Pré-requisitos: Phase 18 · 12-15 (jailbreaks e IPI) Tempo: ~75 minutos

Objetivos de Aprendizado

Descrever a posição do Llama Guard 3/4 na stack de segurança: classificador de entrada, classificador de saída ou ambos.
Nomear as 14 categorias de risco do MLCommons e citar uma não óbvia (Abuso de Intérprete de Código).
Descrever a arquitetura de sondas do Garak: sondas (probes), detectores e harnesses.
Descrever a estrutura de campanha de múltiplos turnos do PyRIT e como ela se compõe com as sondas do Garak.

O Problema

As Lições 12 a 15 apresentam a superfície de ataque. As implantações em produção precisam de avaliações repetíveis e escaláveis. Três ferramentas dominam 2026: Llama Guard (o classificador de defesa), Garak (o scanner) e PyRIT (o orquestrador de campanhas). Cada uma visa uma camada diferente do ciclo de vida do red-team.

O Conceito

Llama Guard (Meta)

O Llama Guard 3 é um modelo Llama-3.1-8B ajustado (fine-tuned) para classificação de entrada/saída nas 14 categorias do MLCommons AILuminate:

Crimes violentos, crimes não violentos, relacionados a sexo, CSAM, difamação
Conselhos especializados, privacidade, propriedade intelectual (IP), armas indiscriminadas, ódio
Suicídio/autoflagelação, conteúdo sexual, eleições, abuso de intérprete de código

Suporta 8 idiomas. Uso: posicionar antes do LLM (moderação de entrada), após o LLM (moderação de saída) ou ambos. Os dois usos geram distribuições de treinamento diferentes — o Llama Guard 3 é fornecido como um único modelo que lida com ambos.

O Llama Guard 3-1B-INT4 (arXiv:2411.17713, 440MB, ~30 tokens/s em CPU móvel) é a variante quantizada de borda.

O Llama Guard 4 (abril de 2025) possui 12B, é nativamente multimodal, podado a partir do Llama 4 Scout. Ele substitui os predecessores de 8B (texto) e 11B (visão) por um único classificador que ingere texto + imagens.

Garak (NVIDIA)

Scanner de vulnerabilidade de código aberto. Arquitetura:

Sondas (Probes). Geradores de ataque para alucinação, vazamento de dados, injeção de prompt, toxicidade e jailbreaks. Estáticas (prompts fixos), dinâmicas (prompts gerados), adaptativas (respondem à saída do alvo).
Detectores. Pontuam saídas em relação aos modos de falha esperados — tóxico, vazado, com jailbreak.
Harnesses. Gerenciam pares sonda-detector, executam campanhas e geram relatórios.

O TrustyAI integra o Garak com os escudos da Llama-Stack (classificador de entrada Prompt-Guard-86M, classificador de saída Llama-Guard-3-8B) para avaliação ponta a ponta de alvos blindados. A pontuação baseada em níveis (TBSA) substitui o passa/falha binário — um modelo pode passar no nível de gravidade 3 e falhar no nível de gravidade 5 na mesma sonda.

PyRIT (Microsoft)

Python Risk Identification Toolkit. Campanhas de red-team de múltiplos turnos. Construído em torno de:

Conversores. Transformam um prompt semente — paráfrase, codificação, tradução, jogo de papéis.
Orquestradores. Executam a campanha: Crescendo (escalada), TAP (ramificação), RedTeaming (loop personalizado).
Pontuação. LLM como juiz (LLM-as-judge) ou classificador como juiz (classifier-as-judge).

O PyRIT é o primo mais robusto do Garak. O Garak executa milhares de sondas de turno único; o PyRIT executa campanhas profundas de múltiplos turnos projetadas para quebrar modos de falha específicos.

A stack

Coloque o Llama Guard em ambos os lados do modelo. Execute o Garak diariamente para testes de regressão. Execute o PyRIT para campanhas de pré-lançamento. Esta é a configuração padrão de 2026 para a maioria das implantações em produção.

Armadilhas de avaliação

Identidade do juiz. Todas as três ferramentas podem usar um LLM como juiz; a calibração do juiz impulsiona as taxas de sucesso de ataque (ASRs) relatadas (Lição 12). Especifique o juiz juntamente com a ferramenta.
Obsolescência de sondas. As sondas do Garak envelhecem à medida que os modelos são corrigidos contra elas. Sondas adaptativas (no formato do PAIR) envelhecem mais devagar do que as estáticas.
Falso Positivo do Llama Guard em conteúdo benigno. As primeiras versões do Llama Guard sinalizavam excessivamente conteúdo político e LGBTQ+; as calibrações do Llama Guard 3/4 foram aprimoradas, mas não são calibradas por implantação.

Onde isso se encaixa na Fase 18

As Lições 12 a 15 são as famílias de ataques. A Lição 16 engloba o ferramental de produção. A Lição 17 (WMDP) é a avaliação para capacidade de dupla utilização. A Lição 18 apresenta os frameworks de segurança de fronteira que envolvem essas ferramentas em uma estrutura de políticas.

Pratique

code/main.py constrói um classificador simulado no estilo Llama Guard (palavras-chave + recursos semânticos em 14 categorias), um ambiente simplificado do Garak (loop de sonda-detector) e uma cadeia de conversores de múltiplos turnos no estilo PyRIT. Você pode executar as três ferramentas contra um alvo fictício e observar as diferentes assinaturas de cobertura.

Entregue

Esta lição produz outputs/skill-red-team-stack.md. Diante de uma descrição de implantação, ela nomeia quais das três ferramentas são apropriadas, o que configurar em cada uma e qual cadência de testes de regressão executar.

Exercícios

Execute code/main.py. Compare a taxa de detecção do classificador no estilo Llama Guard em ataques de turno único contra ataques de múltiplos turnos.
Implemente uma nova sonda do Garak: uma solicitação prejudicial codificada em base64. Meça sua detecção pelo classificador no estilo Llama Guard.
Estenda a cadeia de conversores no estilo PyRIT com um conversor de "traduzir para o francês e depois parafrasear". Meça novamente o sucesso do ataque.
Leia a lista de categorias de risco do Llama Guard 3. Identifique duas categorias nas quais os dados de treinamento gerariam realisticamente altas taxas de falsos positivos em conteúdo legítimo de desenvolvedores.
Compare os princípios de design do Garak e do PyRIT. Argumente em favor de uma implantação na qual cada um seja a ferramenta adequada.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Llama Guard	"o classificador"	Classificador de segurança baseado no Llama-3.1-8B/4-12B ajustado com 14 categorias de risco
Garak	"o scanner"	Scanner de vulnerabilidade de código aberto da NVIDIA; sondas, detectores, harnesses
PyRIT	"a ferramenta de campanha"	Orquestrador de red-team de múltiplos turnos da Microsoft; conversores, orquestradores, pontuação
Prompt-Guard	"o classificador menor"	Classificador de injeção de prompt de 86M da Meta, emparelhado com o Llama Guard
TBSA	"pontuação baseada em níveis"	Avaliação de gravidade baseada em níveis do Garak que substitui os resultados binários
Cadeia de conversores	"parafrasear + codificar + ..."	Primitiva de composição do PyRIT para construir ataques de múltiplas etapas
Categorias de risco do MLCommons	"as 14 taxonomias"	Taxonomia padrão do setor que o Llama Guard adota

Leituras Adicionais

Meta — Llama Guard 3 (no artigo Llama 3 Herd, arXiv:2407.21783) — o classificador de 8B
Meta — Llama Guard 3-1B-INT4 (arXiv:2411.17713) — classificador móvel quantizado
NVIDIA Garak — GitHub — o repositório e a documentação do scanner
Microsoft PyRIT — GitHub — a ferramenta de campanha