Phase 18 - Lesson 16
Herramientas de Red-Team — Garak, Llama Guard, PyRIT
Tres herramientas de producción componen la stack de red-team de 2026. Llama Guard (Meta): un clasificador Llama-3.1-8B ajustado en 14 categorías de riesgo de MLCommons; el Llama Guard 4 de 2025 es un clasificador nativamente multimodal de 12B podado a partir de Llama 4 Scout. Garak (NVIDIA): escáner de vulnerabilidades de LLM de código abierto con sondas estáticas, dinámicas y adaptativas para alucinación, fuga de datos, inyección de prompts, toxicidad y jailbreaks. PyRIT (Microsoft): campañas de red-team de múltiples turnos con Crescendo, TAP y cadenas de convertidores personalizadas para explotación profunda. Llama Guard 3 está documentado en "Llama 3 Herd of Models" de Meta (arXiv:2407.21783); Llama Guard 3-1B-INT4 en arXiv:2411.17713; y la arquitectura de sondas de Garak en github.com/NVIDIA/garak. Estas herramientas son la interfaz de producción de 2026 entre la investigación de red-team (Lecciones 12-15) y la implementación (Lección 17+).
Tipo: Build Idiomas: Python (stdlib, simulador de arquitectura de herramientas y mock de clasificador estilo Llama Guard) Prerrequisitos: Phase 18 · 12-15 (jailbreaks e IPI) Tiempo: ~75 minutos
Objetivos de Aprendizaje
- Describir la posición de Llama Guard 3/4 en la stack de seguridad: clasificador de entrada, clasificador de salida o ambos.
- Nombrar las 14 categorías de riesgo de MLCommons y mencionar una no obvia (Abuso del Intérprete de Código).
- Describir la arquitectura de sondas de Garak: sondas, detectores y harnesses.
- Describir la estructura de campaña de múltiples turnos de PyRIT y cómo se compone con las sondas de Garak.
El Problema
Las Lecciones 12 a 15 presentan la superficie de ataque. Las implementaciones en producción necesitan una evaluación repetible y escalable. Tres herramientas dominan 2026: Llama Guard (el clasificador de defensa), Garak (el escáner) y PyRIT (el orquestador de campañas). Cada una se dirige a una capa diferente del ciclo de vida del red-team.
El Concepto
Llama Guard (Meta)
Llama Guard 3 es un modelo Llama-3.1-8B ajustado para clasificación de entrada/salida sobre las 14 categorías de MLCommons AILuminate:
- Crímenes violentos, crímenes no violentos, relacionados con el sexo, CSAM, difamación
- Consejos especializados, privacidad, propiedad intelectual (IP), armas indiscriminadas, odio
- Suicidio/autolesión, contenido sexual, elecciones, abuso del intérprete de código
Soporta 8 idiomas. Uso: colocar antes del LLM (moderación de entrada), después del LLM (moderación de salida) o ambos. Los dos usos generan diferentes distribuciones de entrenamiento; Llama Guard 3 se distribuye como un modelo único que maneja ambos.
Llama Guard 3-1B-INT4 (arXiv:2411.17713, 440MB, ~30 tokens/s en CPU móvil) es la variante cuantizada para dispositivos finales (edge).
Llama Guard 4 (abril de 2025) es de 12B, nativamente multimodal, podado a partir de Llama 4 Scout. Reemplaza a sus predecesores de texto de 8B y visión de 11B por un único clasificador que ingiere texto + imágenes.
Garak (NVIDIA)
Escáner de vulnerabilidades de código abierto. Arquitectura:
- Sondas (Probes). Generadores de ataques para alucinación, fuga de datos, inyección de prompts, toxicidad y jailbreaks. Estáticas (prompts fijos), dinámicas (prompts generados), adaptativas (responden a la salida del objetivo).
- Detectores. Evalúan las salidas frente a los modos de fallo esperados: tóxico, filtrado, con jailbreak.
- Harnesses. Gestionan los pares de sonda-detector, ejecutan campañas y generan informes.
TrustyAI integra Garak con los escudos de Llama-Stack (clasificador de entrada Prompt-Guard-86M, clasificador de salida Llama-Guard-3-8B) para una evaluación de extremo a extremo de objetivos protegidos. La puntuación basada en niveles (TBSA) reemplaza el aprobado/fallido binario: un modelo puede aprobar en el nivel de gravedad 3 y fallar en el nivel de gravedad 5 en la misma sonda.
PyRIT (Microsoft)
Python Risk Identification Toolkit. Campañas de red-team de múltiples turnos. Construido en torno a:
- Convertidores. Transforman un prompt semilla: paráfrasis, codificación, traducción, juego de rol.
- Orquestadores. Ejecutan la campaña: Crescendo (escalada), TAP (ramificación), RedTeaming (bucle personalizado).
- Puntuación. LLM como juez o clasificador como juez.
PyRIT es el primo más pesado de Garak. Garak ejecuta miles de sondas de un solo turno; PyRIT ejecuta campañas profundas de múltiples turnos diseñadas para vulnerar modos de fallo específicos.
La stack
Coloque Llama Guard en ambos lados del modelo. Ejecute Garak todas las noches para regresiones. Ejecute PyRIT para campañas previas al lanzamiento. Esta es la configuración predeterminada de 2026 para la mayoría de las implementaciones en producción.
Dificultades de la evaluación
- Identidad del juez. Las tres herramientas pueden usar un LLM como juez; la calibración del juez impulsa las ASR reportadas (Lección 12). Especifique el juez junto con la herramienta.
- Caducidad de las sondas. Las sondas de Garak envejecen a medida que los modelos se corrigen contra ellas. Las sondas adaptativas (tipo PAIR) envejecen más lentamente que las sondas estáticas.
- Llama Guard FPR en contenido benigno. Las primeras versiones de Llama Guard marcaban en exceso el contenido político y LGBTQ+; las calibraciones de Llama Guard 3/4 han mejorado pero no están calibradas por implementación.
Dónde encaja esto en la Fase 18
Las Lecciones 12 a 15 son las familias de ataques. La Lección 16 es el ferramental de producción. La Lección 17 (WMDP) es la evaluación de capacidad de doble uso. La Lección 18 son los marcos de seguridad de frontera que envuelven estas herramientas en una estructura de políticas.
Práctica
code/main.py construye un clasificador estilo Llama Guard de juguete (palabras clave + características semánticas en 14 categorías), un arnés Garak de juguete (bucle de sonda-detector) y una cadena de convertidores de múltiples turnos estilo PyRIT. Puede ejecutar las tres herramientas contra un objetivo simulado y observar las diferentes firmas de cobertura.
Entregue
Esta lección produce outputs/skill-red-team-stack.md. Dada una descripción de implementación, nombra cuáles de las tres herramientas son apropiadas, qué configurar en cada una y qué cadencia de regresión ejecutar.
Ejercicios
Ejecute
code/main.py. Compare la tasa de detección del clasificador estilo Llama Guard en ataques de un solo turno frente a los de múltiples turnos.Implemente una nueva sonda de Garak: una solicitud dañina codificada en base64. Mida su detección por el clasificador estilo Llama Guard.
Extienda la cadena de convertidores estilo PyRIT con un convertidor de "traducir al francés, luego parafrasear". Vuelva a medir el éxito del ataque.
Lea la lista de categorías de peligro de Llama Guard 3. Identifique dos categorías en las que los datos de entrenamiento producirían de manera realista altas tasas de falsos positivos en contenido legítimo de desarrolladores.
Compare los principios de diseño de Garak y PyRIT. Argumente a favor de una implementación donde cada uno sea la herramienta adecuada.
Términos Clave
| Término | Lo que la gente dice | Lo que realmente significa |
|---|---|---|
| Llama Guard | "el clasificador" | Clasificador de seguridad Llama-3.1-8B/4-12B ajustado con 14 categorías de peligro |
| Garak | "el escáner" | Escáner de vulnerabilidades de código abierto de NVIDIA; sondas, detectores, harnesses |
| PyRIT | "la herramienta de campaña" | Orquestador de red-team de múltiples turnos de Microsoft; convertidores, orquestadores, puntuación |
| Prompt-Guard | "el clasificador pequeño" | Clasificador de inyección de prompts de 86M de Meta, emparejado con Llama Guard |
| TBSA | "puntuación basada en niveles" | Evaluación de gravedad basada en niveles de Garak que reemplaza los resultados binarios |
| Cadena de convertidores | "parafrasear + codificar + ..." | Primitiva de composición de PyRIT para construir ataques de múltiples pasos |
| Categorías de peligro de MLCommons | "las 14 taxonomías" | Taxonomía estándar de la industria a la que se dirige Llama Guard |
Lecturas Adicionales
- Meta — Llama Guard 3 (en el artículo de Llama 3 Herd, arXiv:2407.21783) — el clasificador 8B
- Meta — Llama Guard 3-1B-INT4 (arXiv:2411.17713) — clasificador móvil cuantizado
- NVIDIA Garak — GitHub — el repositorio y documentación del escáner
- Microsoft PyRIT — GitHub — el kit de herramientas de campaña