Phase 10 - Lesson 11

Quantização: Fazendo Modelos Caberem

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Um modelo de 70B em FP16 precisa de 140GB. Duas A100s apenas para os pesos. Quantize para FP8: uma GPU de 80GB. INT4: um MacBook.

Tipo: Build Idiomas: Python (com numpy) Pré-requisitos: Fase 10, Lições 01-10 (LLMs do Zero) Tempo: ~120 minutos

Objetivos de Aprendizado

Implementar quantização simétrica e assimétrica de FP16 para INT8 e INT4, incluindo redimensionamento por tensor e por canal
Calcular a economia de memória da quantização e determinar qual precisão cabe na VRAM de uma determinada GPU
Explicar a diferença entre quantização pós-treinamento (PTQ) e treinamento consciente de quantização (QAT)
Aplicar GPTQ ou AWQ para quantizar um modelo real e medir a compensação entre precisão e memória em um benchmark

O Problema

O Llama 3 70B possui 70 bilhões de parâmetros. Cada parâmetro é um número de ponto flutuante de 16 bits. Isso representa 140 bilhões de bytes. 140GB. Uma única A100 possui 80GB de VRAM. Você não consegue sequer carregar os pesos, muito menos executar inferência, em uma única GPU. Você precisa de duas A100s a

/hora cada apenas para servir um modelo.

Mas 16 bits por parâmetro é um desperdício. A maioria dos pesos em uma rede neural se agrupa perto de zero. Todo o intervalo dinâmico do FP16 (de 0.000000059 a 65.504) está quase totalmente sem uso. Se você medir a distribuição real dos pesos no Llama 3 70B, 95% deles ficam entre -0.1 e +0.1. Você está queimando 16 bits para representar valores que poderiam caber em 4.

A quantização substitui números de alta precisão por outros de menor precisão. FP16 para FP8 corta a memória pela metade. FP16 para INT4 a reduz para um quarto. Aquele modelo de 140GB se torna 35GB. Ele cabe em uma única GPU de consumo. Vá para a quantização de 2 bits (agressiva, com perdas, mas utilizável para algumas tarefas) e o mesmo modelo rodará em um laptop de 16GB.

O custo é a precisão. Cada bit que você remove destrói informações. A questão é quanta precisão você perde e onde. Um modelo INT4 bem quantizado retém 95-99% da qualidade do original na maioria dos benchmarks. Uma quantização ingênua para INT4 pode destruir o modelo completamente. A diferença está na técnica.

Quantizações da comunidade do Llama 3 para INT4 com GPTQ mostram cerca de 1-2 pontos de perplexidade perdidos no WikiText. A Mistral lançou checkpoints em FP8 do Mixtral 8x22B com zero perda de qualidade mensurável no MMLU. O formato GGUF alimenta o llama.cpp, executando modelos 70B em MacBooks com chips da série M. A quantização não é um "hack". É o caminho de implantação padrão para todo modelo maior que 7B.

O Conceito

Formatos Numéricos: O que Cada Bit Faz

Todo número de ponto flutuante tem três partes: sinal, expoente e mantissa (também chamada de significando). O sinal é um bit. O expoente determina o intervalo (quão grande ou pequeno o número pode ser). A mantissa determina a precisão (quantas casas decimais você obtém).

FP32:  [1 sign] [8 exponent] [23 mantissa]  = 32 bits
FP16:  [1 sign] [5 exponent] [10 mantissa]  = 16 bits
BF16:  [1 sign] [8 exponent] [7  mantissa]  = 16 bits
FP8:   [1 sign] [4 exponent] [3  mantissa]  = 8  bits (E4M3)
FP8:   [1 sign] [5 exponent] [2  mantissa]  = 8  bits (E5M2)
INT8:  [1 sign] [7 value]                   = 8  bits (uniform steps)
INT4:  [1 sign] [3 value]                   = 4  bits (16 levels total)

FP32 é precisão total. 23 bits de mantissa fornecem cerca de 7 dígitos decimais de precisão. Intervalo: aproximadamente 1.2 x 10^-38 a 3.4 x 10^38. O treinamento costumava ocorrer exclusivamente em FP32. Ele ainda ocorre para acumulação (somas acumuladas durante a multiplicação de matrizes).

O FP16 divide os bits pela metade. 10 bits de mantissa fornecem cerca de 3,3 dígitos decimais. O expoente encolhe para 5 bits, reduzindo drasticamente o intervalo (valor máximo ~65.504). Isso é aceitável para os pesos (que se agrupam perto de zero), mas perigoso para ativações e gradientes que podem ter picos durante o treinamento. O treinamento em FP16 requer escalonamento de perda para evitar subfluxo (underflow).

O BF16 (Brain Float 16) mantém o expoente de 8 bits do FP32, mas encolhe a mantissa para 7 bits. Mesmo intervalo do FP32, menor precisão que o FP16. O Google o projetou especificamente para aprendizado profundo. A intuição: o intervalo importa mais do que a precisão para redes neurais. Um gradiente de 10^-20 que sofre subfluxo para zero em FP16 sobrevive em BF16. Um peso de 0.07342 que arredonda para 0.0734 em BF16 é próximo o suficiente. Todo treinamento moderno usa BF16 ou uma mistura de BF16/FP32.

O FP8 vem em dois sabores. E4M3 (4 expoentes, 3 mantissas) é usado para pesos e ativações durante a inferência. E5M2 (5 expoentes, 2 mantissas) é usado para gradientes durante o treinamento, onde o intervalo importa mais do que a precisão. A inferência em FP8 em GPUs H100 alcança uma aceleração de 30-50% sobre o FP16 com perda de qualidade insignificante.

O INT8 é um formato de número inteiro. Sem expoente, sem mantissa. Apenas 256 valores uniformemente espaçados de -128 a 127. Você precisa de um fator de escala para mapear pesos de ponto flutuante para este intervalo. A vantagem: a aritmética de inteiros é mais rápida e consome menos energia do que a de ponto flutuante. A multiplicação de matrizes INT8 em uma A100 roda a 624 TOPS contra 312 TFLOPS para FP16.

O INT4 vai além. Apenas 16 valores possíveis. O fator de escala faz o trabalho pesado. A qualidade depende inteiramente de como você escolhe a escala e de quais pesos você quantiza. Métodos INT4 de última geração (GPTQ, AWQ) mantêm mais de 95% da qualidade original do modelo.

graph LR
    subgraph Formats["Panorama de Formatos Numéricos"]
        direction TB
        FP32["FP32\n32 bits\n4 bytes/param\nPadrão de ouro de treinamento"]
        BF16["BF16\n16 bits\n2 bytes/param\nPadrão de treinamento"]
        FP16["FP16\n16 bits\n2 bytes/param\nLinha de base de inferência"]
        FP8["FP8\n8 bits\n1 byte/param\n30-50% mais rápido"]
        INT8["INT8\n8 bits\n1 byte/param\n2x vazão (throughput)"]
        INT4["INT4\n4 bits\n0.5 bytes/param\n4x compressão"]
    end

    FP32 -->|"treinamento"| BF16
    BF16 -->|"inferência"| FP16
    FP16 -->|"nativo na H100"| FP8
    FP16 -->|"implantação em servidor"| INT8
    FP16 -->|"borda/laptop"| INT4

    style FP32 fill:#1a1a2e,stroke:#0f3460,color:#fff
    style BF16 fill:#1a1a2e,stroke:#0f3460,color:#fff
    style FP16 fill:#1a1a2e,stroke:#ffa500,color:#fff
    style FP8 fill:#1a1a2e,stroke:#51cf66,color:#fff
    style INT8 fill:#1a1a2e,stroke:#51cf66,color:#fff
    style INT4 fill:#1a1a2e,stroke:#e94560,color:#fff

Como Funciona a Quantização

A operação principal é simples. Pegue um tensor de valores de ponto flutuante, encontre um fator de escala, multiplique, arredonde para o número inteiro mais próximo e armazene os inteiros mais o fator de escala.

Quantizar:

scale = max(abs(tensor)) / max_int_value
quantized = round(tensor / scale)

Desquantizar:

reconstructed = quantized * scale

Para INT8 com um intervalo simétrico (-127 a 127):

scale = max(abs(tensor)) / 127
quantized = clamp(round(tensor / scale), -128, 127)

O erro é o erro de arredondamento. Cada valor pode diferir no máximo por scale / 2. O erro total em uma camada depende de quantos pesos você tem e de quão sensível o modelo é a perturbações nesses pesos.

Quantização por tensor vs. por canal. A quantização por tensor usa um único fator de escala para toda a matriz de pesos. Simples, mas com perdas: se uma coluna tiver valores grandes e outra tiver valores pequenos, os valores pequenos perderão a maior parte de sua precisão. A quantização por canal usa um fator de escala por canal de saída (por linha ou coluna da matriz de pesos). Mais sobrecarga (você armazena N fatores de escala em vez de 1), mas com qualidade drasticamente superior. Todo método de quantização em produção usa granularidade por canal ou ainda mais fina.

A quantização assimétrica adiciona um deslocamento de ponto zero: quantized = round(tensor / scale) + zero_point. Isso lida com distribuições que não estão centralizadas em zero. As ativações ReLU, por exemplo, são sempre não negativas. A quantização simétrica desperdiça metade do intervalo de inteiros em valores negativos que nunca aparecem. A quantização assimétrica mapeia o intervalo real [min, max] para o intervalo de inteiros completo.

Hierarquia de Sensibilidade

Nem tudo em um modelo tolera a quantização igualmente. Existe uma hierarquia clara.

Pesos (mais robustos). Os pesos do modelo mudam lentamente durante o treinamento e seguem uma distribuição aproximadamente gaussiana centrada perto de zero. Eles são quantizados facilmente. Pesos INT8 com escalas por canal produzem resultados quase sem perdas. INT4 exige métodos mais sofisticados, mas funciona.

Ativações (sensibilidade moderada). As ativações são os valores intermediários que fluem pela rede durante a inferência. Elas têm um intervalo dinâmico mais amplo do que os pesos e contêm valores discrepantes (outliers). Uma única cabeça de atenção pode produzir valores de ativação 100x maiores que a média. Esses outliers são essenciais para a qualidade do modelo. Quantizá-los ingenuamente destrói informações. Soluções: manter os canais de outliers em maior precisão (LLM.int8()), usar escalas de ativação por token ou por canal.

KV cache (alta sensibilidade). O cache de chave-valor (KV cache) armazena os estados de atenção para todos os tokens anteriores. Em comprimentos de contexto longos, o KV cache domina a memória. Para um modelo 70B com contexto de 32K, o KV cache sozinho consome 40GB em FP16. Quantizar o KV cache para FP8 ou INT8 economiza uma quantidade massiva de memória, mas qualquer erro se acumula em todas as computações de atenção futuras. O impacto na qualidade aumenta com o comprimento da sequência.

Logits de atenção (mais sensíveis). O softmax na atenção é altamente sensível a pequenas mudanças em suas entradas. Um erro de quantização de 0.01 em um logit pré-softmax pode desviar a distribuição de atenção de maneira significativa. A maioria dos esquemas de quantização mantém o cálculo de atenção em maior precisão (FP16 ou BF16), mesmo quando todo o resto é quantizado.

graph TD
    subgraph Sensitivity["Sensibilidade de Quantização (Baixa para Alta)"]
        direction LR
        W["Pesos\nGaussiano, perto de zero\nINT4 funciona bem"]
        A["Ativações\nIntervalo mais amplo, outliers\nINT8 com cuidado"]
        KV["KV Cache\nErros se acumulam\nFP8 ou INT8"]
        ATT["Logits de Atenção\nSoftmax amplifica o erro\nManter em FP16"]
    end

    W -->|"seguro"| A
    A -->|"cuidadoso"| KV
    KV -->|"perigoso"| ATT

    style W fill:#1a1a2e,stroke:#51cf66,color:#fff
    style A fill:#1a1a2e,stroke:#ffa500,color:#fff
    style KV fill:#1a1a2e,stroke:#e94560,color:#fff
    style ATT fill:#1a1a2e,stroke:#ff0000,color:#fff

PTQ vs. QAT

A Quantização Pós-Treinamento (PTQ) quantiza um modelo já treinado. Sem retreinamento. Você pega os pesos em FP16, calcula os fatores de escala, arredonda e faz a implantação. Rápido (minutos a horas) e barato. Funciona bem para INT8 e FP8. Para INT4, o PTQ ingênuo frequentemente falha de forma grave porque os erros de arredondamento se acumulam. Métodos PTQ avançados (GPTQ, AWQ) usam dados de calibração para minimizar o erro de quantização.

O Treinamento Consciente de Quantização (QAT) insere operações de quantização simuladas (fake quantization) na passagem direta (forward pass) durante o treinamento. O modelo aprende a colocar seus pesos onde os erros de arredondamento são pequenos. Os gradientes fluem através da quantização simulada usando o estimador direto (straight-through estimator - STE): finge-se que a operação de arredondamento tem gradiente 1. O QAT produz modelos INT4 e INT2 melhores do que o PTQ, mas requer uma execução de treinamento completa. O Google usou QAT para a disponibilização eficiente do Gemini. A Meta usou QAT para alguns alvos de implantação do Llama.

Aspecto	PTQ	QAT
Custo	Minutos a horas	Execução de treinamento completa
Qualidade em INT8	Excelente (< 0,1% de perda)	Excelente
Qualidade em INT4	Boa com GPTQ/AWQ (1-3% de perda)	Melhor (< 1% de perda)
Qualidade em INT2	Ruim	Utilizável para algumas tarefas
Dados de calibração	128-1024 exemplos	Conjunto de dados de treinamento completo
Quando usar	Implantação, iteração	Qualidade máxima com largura de bits baixa

GPTQ, AWQ, GGUF

O GPTQ (GPT Quantization) é um método PTQ de passo único (one-shot). Ele quantiza pesos uma camada de cada vez, usando um pequeno conjunto de dados de calibração (128 exemplos é o típico) para medir o Hessiano (informação de segunda ordem sobre quão sensível a saída é para cada peso). Os pesos que o Hessiano indica serem importantes são quantizados com mais cuidado. O GPTQ foi o primeiro método a tornar a quantização INT4 prática para LLMs. O perfil TheBloke no Hugging Face popularizou o GPTQ ao lançar versões quantizadas de centenas de modelos.

O AWQ (Activation-Aware Weight Quantization) observa que uma pequena fração de pesos (cerca de 1%) é desproporcionalmente importante porque eles se multiplicam com grandes valores de ativação. O AWQ identifica esses pesos salientes usando dados de calibração e os escala para cima antes da quantização (depois escala as ativações correspondentes para baixo). Isso mantém os pesos importantes em uma faixa onde a quantização INT4 é precisa. O AWQ normalmente se iguala ou supera ligeiramente a qualidade do GPTQ, sendo 1.5-2x mais rápido para aplicar.

O GGUF (GPT-Generated Unified Format) é o formato de arquivo usado pelo llama.cpp e seu ecossistema. Ele suporta quantização mista: diferentes camadas recebem diferentes larguras de bits. A primeira e a última camada (incorporação/embedding e cabeça de saída/output head) são normalmente mantidas em maior precisão. As camadas do meio recebem INT4 ou INT3. Os arquivos GGUF são independentes: pesos, tokenizador e metadados estão todos em um único arquivo. O formato é projetado para inferência em CPU e Apple Silicon, onde carregar o modelo inteiro na memória e executar multiplicações de matrizes na CPU ou Metal GPU é o caminho padrão. Q4_K_M é a variante de quantização GGUF mais popular, equilibrando qualidade e tamanho.

graph TD
    subgraph Methods["Métodos de Quantização"]
        direction TB
        GPTQ_["GPTQ\nGuiado pelo Hessiano\nOtimização por camada\nPopular no HuggingFace"]
        AWQ_["AWQ\nConsciente de ativação\nRedimensionamento de pesos salientes\n1.5-2x mais rápido que GPTQ"]
        GGUF_["GGUF\nPrecisão mista\nOtimizado para CPU + Metal\nEcossistema llama.cpp"]
    end

    subgraph Use["Melhor Para"]
        GPU["Inferência em GPU\n(CUDA, ROCm)"]
        EDGE["Borda / Laptop\n(CPU, Metal)"]
    end

    GPTQ_ --> GPU
    AWQ_ --> GPU
    GGUF_ --> EDGE

    style GPTQ_ fill:#1a1a2e,stroke:#ffa500,color:#fff
    style AWQ_ fill:#1a1a2e,stroke:#51cf66,color:#fff
    style GGUF_ fill:#1a1a2e,stroke:#0f3460,color:#fff

Medição de Qualidade

Como você sabe se o seu modelo quantizado ainda é bom?

Perplexidade (Perplexity). A métrica mais comum. Quanto menor, melhor. Calcule a perplexidade em um conjunto de dados reservado (WikiText-2 é o padrão) tanto para o modelo original quanto para o quantizado. O delta indica quanta informação a quantização destruiu. Regras gerais: delta < 0.5 é excelente, 0.5-1.0 é bom, 1.0-2.0 é aceitável para a maioria das tarefas, > 2.0 significa que algo deu errado.

Benchmarks específicos de tarefas. Execute o modelo quantizado no MMLU, HumanEval, GSM8K ou em sua suíte de avaliação personalizada. Compare com o original. A quantização afeta diferentes capacidades de maneira desigual. As tarefas de matemática e codificação são mais sensíveis à perda de precisão do que as de conhecimento geral.

Comparação de saídas. Gere respostas de ambos os modelos nos mesmos prompts e compare. LLM como juiz (LLM-as-judge - Lição 10) funciona bem aqui. Calcule uma taxa de vitória: em qual fração de prompts o modelo quantizado se iguala ou supera o original?

Latência e vazão (throughput). A quantização existe para tornar os modelos mais rápidos e baratos. Meça os tokens por segundo, o tempo até o primeiro token e o uso de memória. Um modelo quantizado que é mais lento do que o original é pior do que inútil.

Modelo	Formato	Tamanho	Perplexidade (WikiText-2)	MMLU	Tokens/seg (A100)
Llama 3 70B	FP16	140GB	3.12	79.5%	38
Llama 3 70B	FP8	70GB	3.14	79.3%	55
Llama 3 70B	GPTQ INT4	35GB	4.32	77.8%	72
Llama 3 70B	AWQ INT4	35GB	4.18	78.1%	75
Llama 3 70B	GGUF Q4_K_M	40GB	4.25	77.9%	28 (CPU)

O padrão: FP8 é quase gratuito. INT4 custa 1-2 pontos de MMLU, mas dobra a vazão e reduz a memória para um quarto. A compensação vale a pena para quase toda implantação.

Números Reais

FP16 para FP8 na H100: aceleração de inferência de 30-50%, < 0,1% de perda de qualidade. Esta é a quantização óbvia. Toda implantação na H100 deveria usá-la.

FP16 para INT8 (LLM.int8()): redução de 2x na memória, < 0,5% de perda de qualidade. A abordagem de precisão mista mantém recursos atípicos (outliers) em FP16 enquanto quantiza todo o resto para INT8.

FP16 para INT4 (GPTQ/AWQ): redução de 4x na memória, 1-3% de perda de qualidade dependendo do modelo e do método. Permite modelos 70B em uma única GPU de 48GB.

FP16 para INT4 (GGUF Q4_K_M): redução de 3,5x na memória, 1-2% de perda de qualidade. Otimizado para inferência em CPU. Um modelo 70B em Q4_K_M tem cerca de 40GB e roda a 10-15 tokens/segundo em um M3 Max com 64GB.

FP16 para INT2: redução de 8x na memória, 5-15% de perda de qualidade. Apenas viável para tarefas específicas e restritas onde você pode tolerar a degradação. Fronteira de pesquisa, não está pronto para produção para uso geral.

Construa

Passo 1: Representações de Formato Numérico

Construa a representação no nível de bits de cada formato para ver exatamente o que o sinal, o expoente e a mantissa fazem.

import numpy as np


def float_to_fp32_bits(value):
    bits = np.float32(value).view(np.uint32)
    sign = (bits >> 31) & 1
    exponent = (bits >> 23) & 0xFF
    mantissa = bits & 0x7FFFFF
    return {"sign": int(sign), "exponent": int(exponent), "mantissa": int(mantissa),
            "exponent_bits": format(int(exponent), '08b'),
            "mantissa_bits": format(int(mantissa), '023b'),
            "value": float(value),
            "actual_exponent": int(exponent) - 127}


def float_to_fp16_bits(value):
    fp16 = np.float16(value)
    bits = fp16.view(np.uint16)
    sign = (bits >> 15) & 1
    exponent = (bits >> 10) & 0x1F
    mantissa = bits & 0x3FF
    return {"sign": int(sign), "exponent": int(exponent), "mantissa": int(mantissa),
            "exponent_bits": format(int(exponent), '05b'),
            "mantissa_bits": format(int(mantissa), '010b'),
            "value": float(fp16),
            "actual_exponent": int(exponent) - 15}


def float_to_bf16_bits(value):
    fp32_bits = np.float32(value).view(np.uint32)
    bf16_bits = (fp32_bits >> 16).astype(np.uint16)
    sign = (bf16_bits >> 15) & 1
    exponent = (bf16_bits >> 7) & 0xFF
    mantissa = bf16_bits & 0x7F
    reconstructed = np.uint32(bf16_bits.astype(np.uint32) << 16).view(np.float32)
    return {"sign": int(sign), "exponent": int(exponent), "mantissa": int(mantissa),
            "exponent_bits": format(int(exponent), '08b'),
            "mantissa_bits": format(int(mantissa), '07b'),
            "value": float(reconstructed),
            "actual_exponent": int(exponent) - 127}


def simulate_fp8_e4m3(value):
    sign = 1 if value < 0 else 0
    abs_val = abs(value)
    max_val = 448.0
    abs_val = min(abs_val, max_val)
    if abs_val == 0:
        return {"sign": sign, "exponent": 0, "mantissa": 0, "value": 0.0,
                "exponent_bits": "0000", "mantissa_bits": "000"}
    exp = int(np.floor(np.log2(abs_val)))
    exp = max(-6, min(8, exp))
    mantissa_val = abs_val / (2.0 ** exp) - 1.0
    mantissa_quant = round(mantissa_val * 8) / 8
    mantissa_quant = max(0, min(0.875, mantissa_quant))
    reconstructed = (1.0 + mantissa_quant) * (2.0 ** exp)
    if sign:
        reconstructed = -reconstructed
    mantissa_int = int(round(mantissa_quant * 8))
    return {"sign": sign, "exponent": exp + 7, "mantissa": mantissa_int,
            "exponent_bits": format(exp + 7, '04b'),
            "mantissa_bits": format(mantissa_int, '03b'),
            "value": float(reconstructed),
            "actual_exponent": exp}


def display_format_comparison(value):
    fp32 = float_to_fp32_bits(value)
    fp16 = float_to_fp16_bits(value)
    bf16 = float_to_bf16_bits(value)
    fp8 = simulate_fp8_e4m3(value)

    print(f"\n  Value: {value}")
    print(f"  {'Format':<8} {'Stored Value':>14} {'Error':>12} {'Sign':>5} {'Exp Bits':>10} {'Man Bits':>25}")
    print(f"  {'-'*76}")
    print(f"  {'FP32':<8} {fp32['value']:>14.6f} {abs(fp32['value'] - value):>12.8f} {fp32['sign']:>5} {fp32['exponent_bits']:>10} {fp32['mantissa_bits']:>25}")
    print(f"  {'FP16':<8} {fp16['value']:>14.6f} {abs(fp16['value'] - value):>12.8f} {fp16['sign']:>5} {fp16['exponent_bits']:>10} {fp16['mantissa_bits']:>25}")
    print(f"  {'BF16':<8} {bf16['value']:>14.6f} {abs(bf16['value'] - value):>12.8f} {bf16['sign']:>5} {bf16['exponent_bits']:>10} {bf16['mantissa_bits']:>25}")
    print(f"  {'FP8e4m3':<8} {fp8['value']:>14.6f} {abs(fp8['value'] - value):>12.8f} {fp8['sign']:>5} {fp8['exponent_bits']:>10} {fp8['mantissa_bits']:>25}")

Passo 2: Quantização Simétrica (Por Tensor e Por Canal)

As operações fundamentais de quantização. Por tensor usa uma escala para toda a matriz. Por canal usa uma escala por linha ou coluna.

def quantize_symmetric(tensor, num_bits=8):
    qmin = -(2 ** (num_bits - 1))
    qmax = 2 ** (num_bits - 1) - 1
    abs_max = np.max(np.abs(tensor))
    if abs_max == 0:
        return np.zeros_like(tensor, dtype=np.int32), 1.0
    scale = abs_max / qmax
    quantized = np.clip(np.round(tensor / scale), qmin, qmax).astype(np.int32)
    return quantized, float(scale)


def dequantize_symmetric(quantized, scale):
    return quantized.astype(np.float64) * scale


def quantize_per_channel(tensor, num_bits=8, axis=0):
    qmin = -(2 ** (num_bits - 1))
    qmax = 2 ** (num_bits - 1) - 1

    if axis == 0:
        abs_max = np.max(np.abs(tensor), axis=1, keepdims=True)
    else:
        abs_max = np.max(np.abs(tensor), axis=0, keepdims=True)

    abs_max = np.where(abs_max == 0, 1.0, abs_max)
    scales = abs_max / qmax
    quantized = np.clip(np.round(tensor / scales), qmin, qmax).astype(np.int32)
    return quantized, scales.squeeze()


def dequantize_per_channel(quantized, scales, axis=0):
    if axis == 0:
        return quantized.astype(np.float64) * scales.reshape(-1, 1)
    else:
        return quantized.astype(np.float64) * scales.reshape(1, -1)


def quantize_asymmetric(tensor, num_bits=8):
    qmin = 0
    qmax = 2 ** num_bits - 1
    t_min = np.min(tensor)
    t_max = np.max(tensor)
    if t_max == t_min:
        return np.zeros_like(tensor, dtype=np.int32), 1.0, 0
    scale = (t_max - t_min) / (qmax - qmin)
    zero_point = int(np.round(qmin - t_min / scale))
    zero_point = max(qmin, min(qmax, zero_point))
    quantized = np.clip(np.round(tensor / scale + zero_point), qmin, qmax).astype(np.int32)
    return quantized, float(scale), int(zero_point)


def dequantize_asymmetric(quantized, scale, zero_point):
    return (quantized.astype(np.float64) - zero_point) * scale

Passo 3: Medição de Qualidade

Meça quanta informação a quantização destrói. Erro quadrático médio, relação sinal-ruído e similaridade de cosseno entre os tensores original e reconstruído.

def quantization_error(original, reconstructed):
    diff = original - reconstructed
    mse = float(np.mean(diff ** 2))
    rmse = float(np.sqrt(mse))
    max_error = float(np.max(np.abs(diff)))
    signal_power = float(np.mean(original ** 2))
    snr_db = 10 * np.log10(signal_power / max(mse, 1e-20))

    orig_flat = original.flatten()
    recon_flat = reconstructed.flatten()
    norm_orig = np.linalg.norm(orig_flat)
    norm_recon = np.linalg.norm(recon_flat)
    if norm_orig == 0 or norm_recon == 0:
        cosine_sim = 0.0
    else:
        cosine_sim = float(np.dot(orig_flat, recon_flat) / (norm_orig * norm_recon))

    return {"mse": mse, "rmse": rmse, "max_error": max_error,
            "snr_db": float(snr_db), "cosine_similarity": cosine_sim}


def compare_quantization_methods(tensor, num_bits=8):
    q_pt, s_pt = quantize_symmetric(tensor, num_bits)
    recon_pt = dequantize_symmetric(q_pt, s_pt)
    err_pt = quantization_error(tensor, recon_pt)

    q_pc, s_pc = quantize_per_channel(tensor, num_bits, axis=0)
    recon_pc = dequantize_per_channel(q_pc, s_pc, axis=0)
    err_pc = quantization_error(tensor, recon_pc)

    q_asym, s_asym, zp = quantize_asymmetric(tensor, num_bits)
    recon_asym = dequantize_asymmetric(q_asym, s_asym, zp)
    err_asym = quantization_error(tensor, recon_asym)

    print(f"\n  Quantization Comparison ({num_bits}-bit, tensor shape {tensor.shape}):")
    print(f"  {'Method':<20} {'MSE':>12} {'SNR (dB)':>10} {'Cosine Sim':>12} {'Max Error':>12}")
    print(f"  {'-'*68}")
    print(f"  {'Per-tensor sym':<20} {err_pt['mse']:>12.8f} {err_pt['snr_db']:>10.2f} {err_pt['cosine_similarity']:>12.8f} {err_pt['max_error']:>12.8f}")
    print(f"  {'Per-channel sym':<20} {err_pc['mse']:>12.8f} {err_pc['snr_db']:>10.2f} {err_pc['cosine_similarity']:>12.8f} {err_pc['max_error']:>12.8f}")
    print(f"  {'Asymmetric':<20} {err_asym['mse']:>12.8f} {err_asym['snr_db']:>10.2f} {err_asym['cosine_similarity']:>12.8f} {err_asym['max_error']:>12.8f}")

    return {"per_tensor": err_pt, "per_channel": err_pc, "asymmetric": err_asym}

Passo 4: Varredura de Largura de Bits (Bit-Width Sweep)

Quantize o mesmo tensor em diferentes larguras de bits (2, 3, 4, 8, 16) e meça a qualidade em cada nível. Isso mostra exatamente onde está o declínio acentuado de qualidade (quality cliff).

def bit_width_sweep(tensor):
    print(f"\n  Bit-Width Sweep (tensor shape {tensor.shape}):")
    print(f"  {'Bits':>6} {'Levels':>8} {'MSE':>14} {'SNR (dB)':>10} {'Cosine Sim':>12} {'Compression':>12}")
    print(f"  {'-'*64}")

    results = []
    for bits in [2, 3, 4, 8, 16]:
        q, s = quantize_per_channel(tensor, bits, axis=0)
        recon = dequantize_per_channel(q, s, axis=0)
        err = quantization_error(tensor, recon)
        levels = 2 ** bits
        compression = 32.0 / bits

        print(f"  {bits:>6} {levels:>8} {err['mse']:>14.8f} {err['snr_db']:>10.2f} {err['cosine_similarity']:>12.8f} {compression:>11.1f}x")
        results.append({"bits": bits, "levels": levels, "error": err, "compression": compression})

    return results

Passo 5: Experimento de Sensibilidade

Simule a quantização de diferentes partes de um transformer e meça quais componentes são os mais sensíveis. Isso demonstra a hierarquia de sensibilidade: pesos < ativações < KV cache < atenção.

def simulate_transformer_layer(input_data, weights, kv_scale=1.0):
    hidden = input_data @ weights["qkv"]
    seq_len = hidden.shape[1]
    d_model = weights["qkv"].shape[1] // 3
    q, k, v = hidden[:, :, :d_model], hidden[:, :, d_model:2*d_model], hidden[:, :, 2*d_model:]

    attn_scores = (q @ k.transpose(0, 2, 1)) / np.sqrt(d_model) * kv_scale
    attn_max = np.max(attn_scores, axis=-1, keepdims=True)
    attn_exp = np.exp(attn_scores - attn_max)
    attn_weights = attn_exp / np.sum(attn_exp, axis=-1, keepdims=True)

    attn_output = attn_weights @ v
    output = attn_output @ weights["out"]
    return output, {"q": q, "k": k, "v": v, "attn_scores": attn_scores,
                    "attn_weights": attn_weights, "attn_output": attn_output}


def sensitivity_experiment(batch_size=2, seq_len=16, d_model=64, num_bits=8):
    np.random.seed(42)
    input_data = np.random.randn(batch_size, seq_len, d_model) * 0.1

    weights = {
        "qkv": np.random.randn(d_model, 3 * d_model) * (2.0 / d_model) ** 0.5,
        "out": np.random.randn(d_model, d_model) * (2.0 / d_model) ** 0.5,
    }

    baseline_output, baseline_internals = simulate_transformer_layer(input_data, weights)

    experiments = {}

    q_qkv, s_qkv = quantize_per_channel(weights["qkv"], num_bits, axis=0)
    q_out, s_out = quantize_per_channel(weights["out"], num_bits, axis=0)
    quantized_weights = {
        "qkv": dequantize_per_channel(q_qkv, s_qkv, axis=0),
        "out": dequantize_per_channel(q_out, s_out, axis=0),
    }
    weight_quant_output, _ = simulate_transformer_layer(input_data, quantized_weights)
    experiments["Weights only"] = quantization_error(baseline_output, weight_quant_output)

    _, fresh_internals = simulate_transformer_layer(input_data, weights)
    q_act, s_act = quantize_per_channel(
        fresh_internals["attn_output"].reshape(-1, d_model), num_bits, axis=0
    )
    quant_attn_out = dequantize_per_channel(q_act, s_act, axis=0).reshape(batch_size, seq_len, d_model)
    act_quant_output = quant_attn_out @ weights["out"]
    experiments["Activations only"] = quantization_error(baseline_output, act_quant_output)

    q_k, s_k = quantize_per_channel(fresh_internals["k"].reshape(-1, d_model), num_bits, axis=0)
    q_v, s_v = quantize_per_channel(fresh_internals["v"].reshape(-1, d_model), num_bits, axis=0)
    quant_k = dequantize_per_channel(q_k, s_k, axis=0).reshape(batch_size, seq_len, d_model)
    quant_v = dequantize_per_channel(q_v, s_v, axis=0).reshape(batch_size, seq_len, d_model)
    attn_scores_kv = (fresh_internals["q"] @ quant_k.transpose(0, 2, 1)) / np.sqrt(d_model)
    attn_max_kv = np.max(attn_scores_kv, axis=-1, keepdims=True)
    attn_exp_kv = np.exp(attn_scores_kv - attn_max_kv)
    attn_weights_kv = attn_exp_kv / np.sum(attn_exp_kv, axis=-1, keepdims=True)
    kv_quant_output = (attn_weights_kv @ quant_v) @ weights["out"]
    experiments["KV cache only"] = quantization_error(baseline_output, kv_quant_output)

    noise_scale = np.std(fresh_internals["attn_scores"]) * 0.05
    noisy_scores = fresh_internals["attn_scores"] + np.random.randn(*fresh_internals["attn_scores"].shape) * noise_scale
    noisy_max = np.max(noisy_scores, axis=-1, keepdims=True)
    noisy_exp = np.exp(noisy_scores - noisy_max)
    noisy_weights = noisy_exp / np.sum(noisy_exp, axis=-1, keepdims=True)
    attn_quant_output = (noisy_weights @ fresh_internals["v"]) @ weights["out"]
    experiments["Attention logits (5% noise)"] = quantization_error(baseline_output, attn_quant_output)

    print(f"\n  Sensitivity Experiment ({num_bits}-bit quantization):")
    print(f"  {'Component':<30} {'MSE':>14} {'SNR (dB)':>10} {'Cosine Sim':>12}")
    print(f"  {'-'*68}")
    for name, err in sorted(experiments.items(), key=lambda x: x[1]["mse"]):
        print(f"  {name:<30} {err['mse']:>14.8f} {err['snr_db']:>10.2f} {err['cosine_similarity']:>12.8f}")

    return experiments

Passo 6: GPTQ Simulado

O GPTQ quantiza uma coluna de cada vez, usando o Hessiano para decidir como distribuir o erro de arredondamento. Esta é uma versão simplificada que captura a ideia principal: usar dados de calibração para medir a importância dos pesos e, em seguida, quantizar os pesos menos importantes de forma mais agressiva.

def simulated_gptq(weight_matrix, calibration_inputs, num_bits=4):
    n_in, n_out = weight_matrix.shape
    qmin = -(2 ** (num_bits - 1))
    qmax = 2 ** (num_bits - 1) - 1

    H = np.zeros((n_in, n_in))
    for x in calibration_inputs:
        x = x.reshape(-1, 1) if x.ndim == 1 else x
        for row in range(x.shape[0]):
            xi = x[row].reshape(-1, 1)
            H += xi @ xi.T
    H /= len(calibration_inputs)
    H += np.eye(n_in) * 1e-4

    weight_importance = np.diag(H)

    quantized = np.zeros_like(weight_matrix, dtype=np.int32)
    scales = np.zeros(n_out)
    errors = np.zeros(n_out)

    W = weight_matrix.copy()

    for col in range(n_out):
        w_col = W[:, col]
        abs_max = np.max(np.abs(w_col))
        if abs_max == 0:
            scales[col] = 1.0
            continue
        scale = abs_max / qmax
        scales[col] = scale

        q_col = np.clip(np.round(w_col / scale), qmin, qmax).astype(np.int32)
        quantized[:, col] = q_col

        quant_error = w_col - q_col * scale
        errors[col] = np.sqrt(np.mean(quant_error ** 2))

        if col < n_out - 1:
            importance_weights = weight_importance / (np.max(weight_importance) + 1e-10)
            for next_col in range(col + 1, min(col + 4, n_out)):
                compensation = quant_error * importance_weights * 0.1
                W[:, next_col] += compensation

    return quantized, scales, {"column_errors": errors,
                               "mean_error": float(np.mean(errors)),
                               "max_error": float(np.max(errors))}


def dequantize_gptq(quantized, scales):
    result = np.zeros_like(quantized, dtype=np.float64)
    for col in range(quantized.shape[1]):
        result[:, col] = quantized[:, col] * scales[col]
    return result

Passo 7: Simulação de AWQ

O AWQ identifica os pesos salientes (aqueles que se multiplicam com grandes ativações) e os protege por meio de redimensionamento antes da quantização.

def simulated_awq(weight_matrix, calibration_inputs, num_bits=4, salient_fraction=0.01):
    n_in, n_out = weight_matrix.shape
    qmin = -(2 ** (num_bits - 1))
    qmax = 2 ** (num_bits - 1) - 1

    activation_magnitudes = np.zeros(n_in)
    for x in calibration_inputs:
        if x.ndim == 1:
            activation_magnitudes += np.abs(x)
        else:
            activation_magnitudes += np.mean(np.abs(x), axis=0)
    activation_magnitudes /= len(calibration_inputs)

    n_salient = max(1, int(n_in * salient_fraction))
    salient_indices = np.argsort(activation_magnitudes)[-n_salient:]

    scale_factors = np.ones(n_in)
    for idx in salient_indices:
        col_max = np.max(np.abs(weight_matrix[idx, :]))
        if col_max > 0:
            scale_factors[idx] = min(4.0, 1.0 / (col_max + 1e-8) * np.mean(np.abs(weight_matrix)))

    scaled_weights = weight_matrix * scale_factors.reshape(-1, 1)

    quantized, scales = quantize_per_channel(scaled_weights, num_bits, axis=0)
    dequantized = dequantize_per_channel(quantized, scales, axis=0)

    result = dequantized / scale_factors.reshape(-1, 1)

    err = quantization_error(weight_matrix, result)

    return result, {"salient_indices": salient_indices,
                    "scale_factors": scale_factors[salient_indices],
                    "error": err,
                    "n_salient": n_salient}

Passo 8: Pipeline Completo

Conecte tudo. Compare a quantização ingênua, por canal, GPTQ e AWQ na mesma matriz de pesos.

def full_quantization_comparison(d_in=256, d_out=512, num_bits=4, n_calibration=32):
    np.random.seed(42)

    weight = np.random.randn(d_in, d_out) * 0.02
    outlier_rows = np.random.choice(d_in, size=5, replace=False)
    weight[outlier_rows] *= 10

    calibration = [np.random.randn(8, d_in) * 0.1 for _ in range(n_calibration)]

    q_naive, s_naive = quantize_symmetric(weight, num_bits)
    recon_naive = dequantize_symmetric(q_naive, s_naive)
    err_naive = quantization_error(weight, recon_naive)

    q_pc, s_pc = quantize_per_channel(weight, num_bits, axis=0)
    recon_pc = dequantize_per_channel(q_pc, s_pc, axis=0)
    err_pc = quantization_error(weight, recon_pc)

    q_gptq, s_gptq, gptq_info = simulated_gptq(weight, calibration, num_bits)
    recon_gptq = dequantize_gptq(q_gptq, s_gptq)
    err_gptq = quantization_error(weight, recon_gptq)

    recon_awq, awq_info = simulated_awq(weight, calibration, num_bits)
    err_awq = awq_info["error"]

    print(f"\n  Full Quantization Comparison ({num_bits}-bit, {d_in}x{d_out} matrix)")
    print(f"  Matrix has {len(outlier_rows)} outlier rows (10x scale)")
    print()
    print(f"  {'Method':<20} {'MSE':>14} {'SNR (dB)':>10} {'Cosine Sim':>12}")
    print(f"  {'-'*58}")
    print(f"  {'Naive per-tensor':<20} {err_naive['mse']:>14.8f} {err_naive['snr_db']:>10.2f} {err_naive['cosine_similarity']:>12.8f}")
    print(f"  {'Per-channel':<20} {err_pc['mse']:>14.8f} {err_pc['snr_db']:>10.2f} {err_pc['cosine_similarity']:>12.8f}")
    print(f"  {'Simulated GPTQ':<20} {err_gptq['mse']:>14.8f} {err_gptq['snr_db']:>10.2f} {err_gptq['cosine_similarity']:>12.8f}")
    print(f"  {'Simulated AWQ':<20} {err_awq['mse']:>14.8f} {err_awq['snr_db']:>10.2f} {err_awq['cosine_similarity']:>12.8f}")

    test_input = np.random.randn(4, d_in) * 0.1
    baseline = test_input @ weight
    output_naive = test_input @ recon_naive
    output_pc = test_input @ recon_pc
    output_gptq = test_input @ recon_gptq
    output_awq = test_input @ recon_awq

    print(f"\n  End-to-End Output Error (matmul with test input):")
    print(f"  {'Method':<20} {'Output MSE':>14} {'Output Cosine':>14}")
    print(f"  {'-'*50}")
    for name, output in [("Naive", output_naive), ("Per-channel", output_pc),
                          ("GPTQ", output_gptq), ("AWQ", output_awq)]:
        out_err = quantization_error(baseline, output)
        print(f"  {name:<20} {out_err['mse']:>14.8f} {out_err['cosine_similarity']:>14.8f}")

    return {"naive": err_naive, "per_channel": err_pc, "gptq": err_gptq, "awq": err_awq}


def memory_calculator(num_params_billions, bits_per_param):
    bytes_per_param = bits_per_param / 8
    total_bytes = num_params_billions * 1e9 * bytes_per_param
    total_gb = total_bytes / (1024 ** 3)
    return total_gb


def print_memory_table():
    print("\n  Memory Requirements by Model and Precision:")
    print(f"  {'Model':<15} {'FP32':>8} {'FP16':>8} {'FP8':>8} {'INT8':>8} {'INT4':>8} {'INT2':>8}")
    print(f"  {'-'*64}")
    for name, params in [("7B", 7), ("13B", 13), ("34B", 34), ("70B", 70), ("405B", 405)]:
        fp32 = memory_calculator(params, 32)
        fp16 = memory_calculator(params, 16)
        fp8 = memory_calculator(params, 8)
        int8 = memory_calculator(params, 8)
        int4 = memory_calculator(params, 4)
        int2 = memory_calculator(params, 2)
        print(f"  {name:<15} {fp32:>7.1f}G {fp16:>7.1f}G {fp8:>7.1f}G {int8:>7.1f}G {int4:>7.1f}G {int2:>7.1f}G")


if __name__ == "__main__":
    np.random.seed(42)

    print("=" * 70)
    print("QUANTIZATION: MAKING MODELS FIT")
    print("=" * 70)

    print("\nSTEP 1: Number Format Comparison")
    print("-" * 50)
    for val in [0.1, 3.14159, -0.00073, 42.5, 0.0000012]:
        display_format_comparison(val)

    print("\n\nSTEP 2: Memory Requirements")
    print("-" * 50)
    print_memory_table()

    print("\n\nSTEP 3: Quantization Methods Comparison")
    print("-" * 50)
    weight_matrix = np.random.randn(128, 256) * 0.02
    weight_matrix[0] *= 15
    weight_matrix[42] *= 8
    compare_quantization_methods(weight_matrix, num_bits=8)
    compare_quantization_methods(weight_matrix, num_bits=4)

    print("\n\nSTEP 4: Bit-Width Sweep")
    print("-" * 50)
    sweep_tensor = np.random.randn(64, 128) * 0.05
    bit_width_sweep(sweep_tensor)

    print("\n\nSTEP 5: Sensitivity Experiment")
    print("-" * 50)
    print("\n  INT8:")
    sensitivity_experiment(num_bits=8)
    print("\n  INT4:")
    sensitivity_experiment(num_bits=4)

    print("\n\nSTEP 6: GPTQ vs AWQ vs Naive (INT4)")
    print("-" * 50)
    full_quantization_comparison(d_in=256, d_out=512, num_bits=4)

    print("\n\nSTEP 7: Distribution Analysis")
    print("-" * 50)
    np.random.seed(0)
    simulated_weights = np.random.randn(1000) * 0.02
    abs_vals = np.abs(simulated_weights)
    pct_in_range = np.mean(abs_vals < 0.1) * 100
    print(f"\n  Simulated weight distribution (1000 params, std=0.02):")
    print(f"  Weights in [-0.1, 0.1]: {pct_in_range:.1f}%")
    print(f"  Weights in [-0.05, 0.05]: {np.mean(abs_vals < 0.05) * 100:.1f}%")
    print(f"  Weights in [-0.01, 0.01]: {np.mean(abs_vals < 0.01) * 100:.1f}%")
    print(f"  Max absolute value: {np.max(abs_vals):.6f}")
    print(f"  Mean absolute value: {np.mean(abs_vals):.6f}")

    histogram = np.histogram(simulated_weights, bins=20)
    print(f"\n  Weight histogram:")
    max_count = max(histogram[0])
    for i in range(len(histogram[0])):
        bar_len = int(histogram[0][i] / max_count * 40)
        lo = histogram[1][i]
        hi = histogram[1][i + 1]
        print(f"  [{lo:>7.4f}, {hi:>7.4f}] {'#' * bar_len} ({histogram[0][i]})")

    print("\n\n" + "=" * 70)
    print("DONE")
    print("=" * 70)

Use

Quantizando com AutoGPTQ

# pip install auto-gptq transformers
# from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
# from transformers import AutoTokenizer
#
# model_id = "meta-llama/Llama-3.1-8B"
# quantize_config = BaseQuantizeConfig(
#     bits=4,
#     group_size=128,
#     desc_act=False,
# )
#
# tokenizer = AutoTokenizer.from_pretrained(model_id)
# model = AutoGPTQForCausalLM.from_pretrained(model_id, quantize_config)
#
# calibration = [tokenizer(t, return_tensors="pt") for t in calibration_texts[:128]]
# model.quantize(calibration)
# model.save_quantized("llama-8b-gptq-int4")

Quantizando com AutoAWQ

# pip install autoawq
# from awq import AutoAWQForCausalLM
# from transformers import AutoTokenizer
#
# model_id = "meta-llama/Llama-3.1-8B"
# model = AutoAWQForCausalLM.from_pretrained(model_id)
# tokenizer = AutoTokenizer.from_pretrained(model_id)
#
# model.quantize(tokenizer, quant_config={"zero_point": True, "q_group_size": 128, "w_bit": 4})
# model.save_quantized("llama-8b-awq-int4")

Convertendo para GGUF

# pip install llama-cpp-python
# python convert_hf_to_gguf.py meta-llama/Llama-3.1-8B --outtype q4_k_m --outfile llama-8b-q4km.gguf
# llama-server -m llama-8b-q4km.gguf -c 4096 -ngl 99

Servindo com vLLM

# pip install vllm
# vllm serve model-awq --quantization awq --dtype half --max-model-len 8192

O vLLM suporta nativamente modelos AWQ e GPTQ. Ele lida com a desquantização durante a multiplicação de matrizes e usa atenção paginada (paged attention) para o KV cache. Para FP8 na H100, adicione --dtype float8_e4m3fn.

Entregue

Esta lição produz outputs/skill-quantization.md, um framework de decisão para escolher a estratégia de quantização correta. Dado o tamanho do seu modelo, hardware de destino e requisitos de qualidade, ele informa qual formato, method, e etapas de validação usar. Inclui cálculos de orçamento de memória, recomendações de precisão por componente e receitas de implantação para vLLM, llama.cpp e TensorRT-LLM.

Exercícios

Implementar quantização em grupo. Em vez de uma escala por canal, use uma escala por grupo de 128 pesos dentro de um canal. Isso é o que o GPTQ e o AWQ realmente usam. Compare tamanhos de grupo de 32, 64, 128 e 256 na mesma matriz de pesos. Grupos menores oferecem melhor qualidade, mas maior sobrecarga de armazenamento para os fatores de escala.
Construir um quantizador de precisão mista. Quantize a primeira e a última camada de uma rede de múltiplas camadas em INT8 enquanto quantiza as camadas intermediárias em INT4. Compare a qualidade da saída de ponta a ponta em relação ao INT4 uniforme e ao INT8 uniforme. Meça a economia de memória em comparação com o modelo totalmente em INT8.
Implementar o estimador direto (STE) para treinamento consciente de quantização. Insira operações de quantização/desquantização simuladas na passagem direta de uma rede simples de duas camadas treinada em uma tarefa de regressão. Compare a perda final entre um modelo treinado normalmente (e depois submetido a PTQ para INT4) versus um modelo treinado com QAT desde o início.
Construir um quantizador consciente de outliers inspirado em LLM.int8(). Detecte canais onde a magnitude da ativação excede 6x a média. Mantenha esses canais em FP16 e quantize todo o resto para INT8. Meça a qualidade de ponta a ponta na camada do transformer do Passo 5 com limites variados de outliers (3x, 6x, 10x).
Implementar um painel (dashboard) de qualidade de quantização. Dada uma matriz de pesos, calcule e exiba: o histograma de distribuição de pesos, a distribuição de erros de quantização, fatores de escala por canal, os canais pior quantizados (maior erro de reconstrução) e a similaridade de cosseno entre as saídas originais e quantizadas em 100 entradas aleatórias. Identifique quais canais devem ser mantidos em maior precisão.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
FP16	"Meia precisão"	Ponto flutuante de 16 bits com 5 bits de expoente e 10 bits de mantissa, valor máximo 65.504, formato padrão de inferência
BF16	"Brain float"	Ponto flutuante de 16 bits com 8 bits de expoente (mesmo intervalo do FP32) e 7 bits de mantissa, projetado pelo Google para treinamento
FP8	"Ponto flutuante de oito bits"	Duas variantes: E4M3 (inferência, mais precisão) e E5M2 (treinamento, maior intervalo), nativo na H100
INT8	"Inteiro de oito bits"	256 valores uniformemente espaçados de -128 a 127, precisa de um fator de escala para mapear a partir de pontos flutuantes
INT4	"Inteiro de quatro bits"	16 níveis no total, requer métodos sofisticados (GPTQ, AWQ) para manter a qualidade
Quantização por canal	"Uma escala por linha"	Usa um fator de escala separado para cada canal de saída em vez de um para todo o tensor, reduz dramaticamente o erro
GPTQ	"O método Hessiano"	Quantização pós-treinamento usando informações de segunda ordem para minimizar o erro de saída, uma camada por vez
AWQ	"Consciente de ativação"	Escala pesos salientes (aqueles multiplicados por grandes ativações) antes da quantização para protegê-los
GGUF	"O formato llama.cpp"	Arquivo de modelo independente com camadas de precisão mista, otimizado para inferência em CPU e Apple Silicon
PTQ	"Quantizar após o treinamento"	Converter os pesos de um modelo treinado para menor precisão sem retreinamento, rápido mas limitado sob compressão extrema
QAT	"Quantizar durante o treinamento"	Inserir quantização simulada na passagem direta para que o modelo aprenda a tolerar o arredondamento, melhor em INT4/INT2
Dados de calibração	"Os 128 exemplos"	Um pequeno conjunto de dados executado no modelo para computar estatísticas de ativação para definir os fatores de escala
Fator de escala	"O multiplicador"	Converte entre a faixa de ponto flutuante e a faixa de inteiros: `float_val = int_val * scale`
Delta de perplexidade	"Quanto pior"	Diferença de perplexidade entre o modelo original e o quantizado, < 0,5 é excelente, > 2,0 é um problema

Leituras Adicionais

Frantar et al., 2022 -- "GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers" -- o artigo que tornou a quantização INT4 prática para LLMs usando arredondamento de pesos guiado pelo Hessiano
Lin et al., 2023 -- "AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration" -- protegendo pesos salientes por meio de redimensionamento antes da quantização, igualando ou superando o GPTQ
Dettmers et al., 2022 -- "LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale" -- INT8 de precisão mista que mantém recursos discrepantes (outliers) em FP16, permitindo inferência INT8 sem perda de qualidade
Xiao et al., 2023 -- "SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models" -- migrando a dificuldade de quantização de ativações para pesos para implantação de W8A8
Micikevicius et al., 2022 -- "FP8 Formats for Deep Learning" -- o artigo da NVIDIA/ARM/Intel que define os formatos E4M3 e E5M2 que agora são nativos na H100