Phase 02 - Lesson 09
Avaliação do modelo
This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.
Um modelo é tão bom quanto a forma como você o mede.
Tipo: Construir Idiomas: Python Pré-requisitos: Fase 1 (Probabilidade e Distribuições, Estatística para ML), Fase 2 Lições 1-8 Tempo: ~90 minutos
Objetivos de aprendizagem
- Implementar validação cruzada K-fold e estratificada K-fold do zero e explicar por que a estratificação é importante para dados desequilibrados
- Calcular precisão, recall, F1, AUC-ROC e métricas de regressão (MSE, RMSE, MAE, R-quadrado) do zero
- Interpretar curvas de aprendizagem para diagnosticar se um modelo sofre de alto viés ou alta variância
- Identificar erros comuns de avaliação, incluindo vazamento de dados, seleção errada de métricas e contaminação de conjuntos de testes
O problema
Você treinou um modelo. Obtém 95% de precisão em seus dados. Isso é bom?
Talvez. Talvez não. Se 95% dos seus dados pertencem a uma classe, um modelo que sempre prevê essa classe obtém 95% de precisão e é completamente inútil. Se você avaliou com base nos mesmos dados com os quais treinou, o número de 95% não tem sentido porque o modelo apenas memorizou as respostas. Se o seu conjunto de dados tiver um componente de tempo e você embaralhar aleatoriamente antes da divisão, seu modelo poderá estar usando dados futuros para prever o passado.
A avaliação do modelo é onde a maioria dos projetos de ML erram. A métrica errada faz com que um modelo ruim pareça bom. A divisão errada permite que um modelo trapaceie. A comparação errada faz você escolher o pior modelo. Acertar na avaliação não é opcional. É a diferença entre um modelo que funciona em produção e outro que falha no momento em que vê dados reais.
O Conceito
Treinar, Validar, Testar
flowchart LR
A[Full Dataset] --> B[Train Set 60-70%]
A --> C[Validation Set 15-20%]
A --> D[Test Set 15-20%]
B --> E[Fit Model]
E --> C
C --> F[Tune Hyperparameters]
F --> E
F --> G[Final Model]
G --> D
D --> H[Report Performance]
Três divisões, três propósitos:
- Conjunto de treinamento: o modelo aprende com esses dados. Ele vê esses exemplos durante o treinamento.
- Conjunto de validação: usado para ajustar hiperparâmetros e selecionar entre modelos. O modelo nunca treina com esses dados, mas suas decisões são influenciadas por eles.
- Conjunto de testes: tocado exatamente uma vez, no final, para relatar o desempenho final. Se você observar o desempenho do teste e depois voltar para alterar seu modelo, ele não será mais um conjunto de testes. Tornou-se um segundo conjunto de validação.
O conjunto de testes é a sua garantia de que o desempenho relatado reflete o desempenho do modelo em dados verdadeiramente invisíveis.
Validação cruzada K-Fold
Com conjuntos de dados pequenos, uma única divisão de treinamento/validação desperdiça dados e fornece estimativas ruidosas. A validação cruzada K-fold usa todos os dados para treinamento e validação:
flowchart TB
subgraph Fold1["Fold 1"]
direction LR
V1["Val"] --- T1a["Train"] --- T1b["Train"] --- T1c["Train"] --- T1d["Train"]
end
subgraph Fold2["Fold 2"]
direction LR
T2a["Train"] --- V2["Val"] --- T2b["Train"] --- T2c["Train"] --- T2d["Train"]
end
subgraph Fold3["Fold 3"]
direction LR
T3a["Train"] --- T3b["Train"] --- V3["Val"] --- T3c["Train"] --- T3d["Train"]
end
subgraph Fold4["Fold 4"]
direction LR
T4a["Train"] --- T4b["Train"] --- T4c["Train"] --- V4["Val"] --- T4d["Train"]
end
subgraph Fold5["Fold 5"]
direction LR
T5a["Train"] --- T5b["Train"] --- T5c["Train"] --- T5d["Train"] --- V5["Val"]
end
Fold1 --> R["Average scores"]
Fold2 --> R
Fold3 --> R
Fold4 --> R
Fold5 --> R
- Divida os dados em K dobras de tamanhos iguais
- Para cada dobra, treine nas dobras K-1 e valide nas dobras restantes
- Média das pontuações de validação K
K=5 ou K=10 são escolhas padrão. Cada ponto de dados é usado para validação exatamente uma vez. A pontuação média é uma estimativa mais estável do que qualquer divisão única.
Dobra K estratificada: preserva a distribuição de classes em cada dobra. Se o seu conjunto de dados for 70% classe A e 30% classe B, cada dobra terá aproximadamente a mesma proporção. Isto é importante para conjuntos de dados desequilibrados, onde uma divisão aleatória pode colocar todas as amostras minoritárias em uma única dobra.
Métricas de Classificação
Matriz de confusão: a base. Para classificação binária:
| Previsto Positivo | Negativo previsto | |
|---|---|---|
| Na verdade positivo | Verdadeiro Positivo (TP) | Falso Negativo (FN) |
| Na verdade negativo | Falso Positivo (FP) | Verdadeiro Negativo (TN) |
Desta matriz, seguem todas as outras métricas:
- Precisão = (TP + TN) / (TP + TN + FP + FN). Fração de previsões corretas. Enganador quando as classes estão desequilibradas.
- Precisão = TP / (TP + FP). De todas as coisas previstas como positivas, quantas realmente foram? Use quando falsos positivos custam caro (por exemplo, filtro de spam marcando e-mail real como spam).
- Recall (sensibilidade) = TP / (TP + FN). De todos os aspectos positivos reais, quantos capturamos? Use quando falsos negativos são caros (por exemplo, rastreamento de câncer sem tumor).
- F1 pontuação = 2 * precisão * recall / (precisão + recall). Média harmônica de precisão e recall. Equilibra ambos quando nenhum deles domina claramente.
- AUC-ROC: Área sob a curva característica de operação do receptor. Representa graficamente a taxa de verdadeiros positivos versus a taxa de falsos positivos em vários limites de classificação. AUC = 0,5 significa adivinhação aleatória, AUC = 1,0 significa separação perfeita. Independente de limite: mede quão bem o modelo classifica os positivos acima dos negativos, independentemente do ponto de corte escolhido.
Métricas de regressão
- MSE (erro quadrático médio) = média((y_true - y_pred)^2). Penaliza grandes erros quadraticamente. Sensível a valores discrepantes.
- RMSE (erro quadrático médio) = sqrt(MSE). Mesmas unidades da variável de destino. Mais fácil de interpretar do que MSE.
- MAE (Erro Médio Absoluto) = média(|y_true - y_pred|). Trata todos os erros linearmente. Mais robusto para valores discrepantes do que MSE.
- R-quadrado = 1 - SS_res / SS_tot, onde SS_res = soma((y_true - y_pred)^2) e SS_tot = soma((y_true - y_mean)^2). Fração de variância explicada pelo modelo. R ^ 2 = 1,0 é perfeito. R ^ 2 = 0,0 significa que o modelo não é melhor do que sempre prever a média. R^2 pode ser negativo se o modelo for pior que a média.
Curvas de aprendizagem
Plote as pontuações de treinamento e validação em função do tamanho do conjunto de treinamento:
- Viés alto (underfitting): ambas as curvas convergem para uma pontuação baixa. Adicionar mais dados não ajudará. Você precisa de um modelo mais complexo.
- Alta variância (overfitting): a pontuação de treinamento é alta, mas a pontuação de validação é muito mais baixa. A diferença entre eles é grande. Adicionar mais dados deve ajudar.
Curvas de validação
Plote as pontuações de treinamento e validação em função de um hiperparâmetro:
- Em baixa complexidade: ambas as pontuações são baixas (underfitting)
- Na complexidade certa: ambas as pontuações são altas e próximas
- Em alta complexidade: a pontuação de treinamento permanece alta, mas a pontuação de validação cai (overfitting)
O valor ideal do hiperparâmetro é onde a pontuação de validação atinge o pico.
Erros comuns de avaliação
Vazamento de dados: informações do conjunto de testes vazam para o treinamento. Exemplos: ajustar um escalonador no conjunto de dados completo antes da divisão, incluindo dados futuros na previsão de série temporal, usando um recurso derivado do destino. Sempre divida primeiro e depois pré-processe.
Desequilíbrio de classes: 99% das transações são legítimas, 1% são fraudes. Um modelo que sempre prevê “legítimo” obtém 99% de precisão. Use precisão, recall, F1 ou AUC-ROC.
Métrica errada: otimizar a precisão quando você deveria otimizar o recall (diagnóstico médico) ou otimizar o RMSE quando seus dados tiverem valores discrepantes pesados (use o MAE).
Não usar divisões estratificadas: com dados desequilibrados, uma divisão aleatória pode colocar muito poucas amostras minoritárias na dobra de validação, gerando estimativas instáveis.
Testando com muita frequência: toda vez que você observa o desempenho do teste e faz ajustes, você se ajusta demais ao conjunto de testes. O conjunto de teste é descartável.
Construa
Etapa 1: divisão de treinamento/validação/teste
import random
import math
def train_val_test_split(X, y, train_ratio=0.6, val_ratio=0.2, seed=42):
random.seed(seed)
n = len(X)
indices = list(range(n))
random.shuffle(indices)
train_end = int(n * train_ratio)
val_end = int(n * (train_ratio + val_ratio))
train_idx = indices[:train_end]
val_idx = indices[train_end:val_end]
test_idx = indices[val_end:]
X_train = [X[i] for i in train_idx]
y_train = [y[i] for i in train_idx]
X_val = [X[i] for i in val_idx]
y_val = [y[i] for i in val_idx]
X_test = [X[i] for i in test_idx]
y_test = [y[i] for i in test_idx]
return X_train, y_train, X_val, y_val, X_test, y_test
Etapa 2: validação cruzada de dobras K e dobras K estratificadas
def kfold_split(n, k=5, seed=42):
random.seed(seed)
indices = list(range(n))
random.shuffle(indices)
fold_size = n // k
folds = []
for i in range(k):
start = i * fold_size
end = start + fold_size if i < k - 1 else n
val_idx = indices[start:end]
train_idx = indices[:start] + indices[end:]
folds.append((train_idx, val_idx))
return folds
def stratified_kfold_split(y, k=5, seed=42):
random.seed(seed)
class_indices = {}
for i, label in enumerate(y):
class_indices.setdefault(label, []).append(i)
for label in class_indices:
random.shuffle(class_indices[label])
folds = [{"train": [], "val": []} for _ in range(k)]
for label, indices in class_indices.items():
fold_size = len(indices) // k
for i in range(k):
start = i * fold_size
end = start + fold_size if i < k - 1 else len(indices)
val_part = indices[start:end]
train_part = indices[:start] + indices[end:]
folds[i]["val"].extend(val_part)
folds[i]["train"].extend(train_part)
return [(f["train"], f["val"]) for f in folds]
def cross_validate(X, y, model_fn, k=5, metric_fn=None, stratified=False):
n = len(X)
if stratified:
folds = stratified_kfold_split(y, k)
else:
folds = kfold_split(n, k)
scores = []
for train_idx, val_idx in folds:
X_train = [X[i] for i in train_idx]
y_train = [y[i] for i in train_idx]
X_val = [X[i] for i in val_idx]
y_val = [y[i] for i in val_idx]
model = model_fn()
model.fit(X_train, y_train)
predictions = [model.predict(x) for x in X_val]
if metric_fn:
score = metric_fn(y_val, predictions)
else:
score = sum(1 for yt, yp in zip(y_val, predictions) if yt == yp) / len(y_val)
scores.append(score)
return scores
Etapa 3: Matriz de confusão e métricas de classificação
def confusion_matrix(y_true, y_pred):
tp = sum(1 for yt, yp in zip(y_true, y_pred) if yt == 1 and yp == 1)
tn = sum(1 for yt, yp in zip(y_true, y_pred) if yt == 0 and yp == 0)
fp = sum(1 for yt, yp in zip(y_true, y_pred) if yt == 0 and yp == 1)
fn = sum(1 for yt, yp in zip(y_true, y_pred) if yt == 1 and yp == 0)
return tp, tn, fp, fn
def accuracy(y_true, y_pred):
tp, tn, fp, fn = confusion_matrix(y_true, y_pred)
total = tp + tn + fp + fn
return (tp + tn) / total if total > 0 else 0.0
def precision(y_true, y_pred):
tp, tn, fp, fn = confusion_matrix(y_true, y_pred)
return tp / (tp + fp) if (tp + fp) > 0 else 0.0
def recall(y_true, y_pred):
tp, tn, fp, fn = confusion_matrix(y_true, y_pred)
return tp / (tp + fn) if (tp + fn) > 0 else 0.0
def f1_score(y_true, y_pred):
p = precision(y_true, y_pred)
r = recall(y_true, y_pred)
return 2 * p * r / (p + r) if (p + r) > 0 else 0.0
def roc_curve(y_true, y_scores):
thresholds = sorted(set(y_scores), reverse=True)
tpr_list = []
fpr_list = []
total_positives = sum(y_true)
total_negatives = len(y_true) - total_positives
for threshold in thresholds:
y_pred = [1 if s >= threshold else 0 for s in y_scores]
tp = sum(1 for yt, yp in zip(y_true, y_pred) if yt == 1 and yp == 1)
fp = sum(1 for yt, yp in zip(y_true, y_pred) if yt == 0 and yp == 1)
tpr = tp / total_positives if total_positives > 0 else 0.0
fpr = fp / total_negatives if total_negatives > 0 else 0.0
tpr_list.append(tpr)
fpr_list.append(fpr)
return fpr_list, tpr_list, thresholds
def auc_roc(y_true, y_scores):
fpr_list, tpr_list, _ = roc_curve(y_true, y_scores)
pairs = sorted(zip(fpr_list, tpr_list))
fpr_sorted = [p[0] for p in pairs]
tpr_sorted = [p[1] for p in pairs]
area = 0.0
for i in range(1, len(fpr_sorted)):
width = fpr_sorted[i] - fpr_sorted[i - 1]
height = (tpr_sorted[i] + tpr_sorted[i - 1]) / 2
area += width * height
return area
Etapa 4: Métricas de regressão
def mse(y_true, y_pred):
n = len(y_true)
return sum((yt - yp) ** 2 for yt, yp in zip(y_true, y_pred)) / n
def rmse(y_true, y_pred):
return math.sqrt(mse(y_true, y_pred))
def mae(y_true, y_pred):
n = len(y_true)
return sum(abs(yt - yp) for yt, yp in zip(y_true, y_pred)) / n
def r_squared(y_true, y_pred):
mean_y = sum(y_true) / len(y_true)
ss_res = sum((yt - yp) ** 2 for yt, yp in zip(y_true, y_pred))
ss_tot = sum((yt - mean_y) ** 2 for yt in y_true)
if ss_tot == 0:
return 0.0
return 1.0 - ss_res / ss_tot
Etapa 5: Curvas de aprendizado
def learning_curve(X, y, model_fn, metric_fn, train_sizes=None, val_ratio=0.2, seed=42):
random.seed(seed)
n = len(X)
indices = list(range(n))
random.shuffle(indices)
val_size = int(n * val_ratio)
val_idx = indices[:val_size]
pool_idx = indices[val_size:]
X_val = [X[i] for i in val_idx]
y_val = [y[i] for i in val_idx]
if train_sizes is None:
train_sizes = [int(len(pool_idx) * r) for r in [0.1, 0.2, 0.4, 0.6, 0.8, 1.0]]
train_scores = []
val_scores = []
for size in train_sizes:
subset = pool_idx[:size]
X_train = [X[i] for i in subset]
y_train = [y[i] for i in subset]
model = model_fn()
model.fit(X_train, y_train)
train_pred = [model.predict(x) for x in X_train]
val_pred = [model.predict(x) for x in X_val]
train_scores.append(metric_fn(y_train, train_pred))
val_scores.append(metric_fn(y_val, val_pred))
return train_sizes, train_scores, val_scores
Etapa 6: um classificador simples para teste, além da demonstração completa
class SimpleLogistic:
def __init__(self, lr=0.1, epochs=100):
self.lr = lr
self.epochs = epochs
self.weights = None
self.bias = 0.0
def sigmoid(self, z):
z = max(-500, min(500, z))
return 1.0 / (1.0 + math.exp(-z))
def fit(self, X, y):
n_features = len(X[0])
self.weights = [0.0] * n_features
self.bias = 0.0
for _ in range(self.epochs):
for xi, yi in zip(X, y):
z = sum(w * x for w, x in zip(self.weights, xi)) + self.bias
pred = self.sigmoid(z)
error = yi - pred
for j in range(n_features):
self.weights[j] += self.lr * error * xi[j]
self.bias += self.lr * error
def predict_proba(self, x):
z = sum(w * xi for w, xi in zip(self.weights, x)) + self.bias
return self.sigmoid(z)
def predict(self, x):
return 1 if self.predict_proba(x) >= 0.5 else 0
class SimpleLinearRegression:
def __init__(self, lr=0.001, epochs=200):
self.lr = lr
self.epochs = epochs
self.weights = None
self.bias = 0.0
def fit(self, X, y):
n_features = len(X[0])
self.weights = [0.0] * n_features
self.bias = 0.0
n = len(X)
for _ in range(self.epochs):
for xi, yi in zip(X, y):
pred = sum(w * x for w, x in zip(self.weights, xi)) + self.bias
error = yi - pred
for j in range(n_features):
self.weights[j] += self.lr * error * xi[j] / n
self.bias += self.lr * error / n
def predict(self, x):
return sum(w * xi for w, xi in zip(self.weights, x)) + self.bias
def standardize(values):
n = len(values)
mean = sum(values) / n
var = sum((v - mean) ** 2 for v in values) / n
std = math.sqrt(var) if var > 0 else 1.0
return [(v - mean) / std for v in values], mean, std
def make_classification_data(n=300, seed=42):
random.seed(seed)
X = []
y = []
for _ in range(n):
x1 = random.gauss(0, 1)
x2 = random.gauss(0, 1)
label = 1 if (x1 + x2 + random.gauss(0, 0.5)) > 0 else 0
X.append([x1, x2])
y.append(label)
return X, y
def make_regression_data(n=200, seed=42):
random.seed(seed)
X = []
y = []
for _ in range(n):
x1 = random.uniform(0, 10)
x2 = random.uniform(0, 5)
target = 3 * x1 + 2 * x2 + random.gauss(0, 2)
X.append([x1, x2])
y.append(target)
return X, y
def make_imbalanced_data(n=300, minority_ratio=0.05, seed=42):
random.seed(seed)
X = []
y = []
for _ in range(n):
if random.random() < minority_ratio:
x1 = random.gauss(3, 0.5)
x2 = random.gauss(3, 0.5)
label = 1
else:
x1 = random.gauss(0, 1)
x2 = random.gauss(0, 1)
label = 0
X.append([x1, x2])
y.append(label)
return X, y
if __name__ == "__main__":
X_clf, y_clf = make_classification_data(300)
print("=== Train/Validation/Test Split ===")
X_train, y_train, X_val, y_val, X_test, y_test = train_val_test_split(X_clf, y_clf)
print(f" Train: {len(X_train)}, Val: {len(X_val)}, Test: {len(X_test)}")
print(f" Train class distribution: {sum(y_train)}/{len(y_train)} positive")
print(f" Val class distribution: {sum(y_val)}/{len(y_val)} positive")
model = SimpleLogistic(lr=0.1, epochs=200)
model.fit(X_train, y_train)
print("\n=== Classification Metrics ===")
y_pred = [model.predict(x) for x in X_test]
tp, tn, fp, fn = confusion_matrix(y_test, y_pred)
print(f" Confusion matrix: TP={tp}, TN={tn}, FP={fp}, FN={fn}")
print(f" Accuracy: {accuracy(y_test, y_pred):.4f}")
print(f" Precision: {precision(y_test, y_pred):.4f}")
print(f" Recall: {recall(y_test, y_pred):.4f}")
print(f" F1 Score: {f1_score(y_test, y_pred):.4f}")
y_scores = [model.predict_proba(x) for x in X_test]
auc = auc_roc(y_test, y_scores)
print(f" AUC-ROC: {auc:.4f}")
print("\n=== K-Fold Cross-Validation (K=5) ===")
cv_scores = cross_validate(
X_clf, y_clf,
model_fn=lambda: SimpleLogistic(lr=0.1, epochs=200),
k=5,
metric_fn=accuracy,
)
mean_cv = sum(cv_scores) / len(cv_scores)
std_cv = math.sqrt(sum((s - mean_cv) ** 2 for s in cv_scores) / len(cv_scores))
print(f" Fold scores: {[round(s, 4) for s in cv_scores]}")
print(f" Mean: {mean_cv:.4f} (+/- {std_cv:.4f})")
print("\n=== Stratified K-Fold Cross-Validation (K=5) ===")
strat_scores = cross_validate(
X_clf, y_clf,
model_fn=lambda: SimpleLogistic(lr=0.1, epochs=200),
k=5,
metric_fn=accuracy,
stratified=True,
)
strat_mean = sum(strat_scores) / len(strat_scores)
strat_std = math.sqrt(sum((s - strat_mean) ** 2 for s in strat_scores) / len(strat_scores))
print(f" Fold scores: {[round(s, 4) for s in strat_scores]}")
print(f" Mean: {strat_mean:.4f} (+/- {strat_std:.4f})")
print("\n=== Imbalanced Data: Why Accuracy Lies ===")
X_imb, y_imb = make_imbalanced_data(300, minority_ratio=0.05)
positives = sum(y_imb)
print(f" Class distribution: {positives} positive, {len(y_imb) - positives} negative ({positives/len(y_imb)*100:.1f}% positive)")
always_negative = [0] * len(y_imb)
print(f" Always-negative baseline:")
print(f" Accuracy: {accuracy(y_imb, always_negative):.4f}")
print(f" Precision: {precision(y_imb, always_negative):.4f}")
print(f" Recall: {recall(y_imb, always_negative):.4f}")
print(f" F1 Score: {f1_score(y_imb, always_negative):.4f}")
X_tr_i, y_tr_i, X_v_i, y_v_i, X_te_i, y_te_i = train_val_test_split(X_imb, y_imb)
model_imb = SimpleLogistic(lr=0.5, epochs=500)
model_imb.fit(X_tr_i, y_tr_i)
y_pred_imb = [model_imb.predict(x) for x in X_te_i]
print(f"\n Trained model on imbalanced data:")
print(f" Accuracy: {accuracy(y_te_i, y_pred_imb):.4f}")
print(f" Precision: {precision(y_te_i, y_pred_imb):.4f}")
print(f" Recall: {recall(y_te_i, y_pred_imb):.4f}")
print(f" F1 Score: {f1_score(y_te_i, y_pred_imb):.4f}")
print("\n=== Regression Metrics ===")
X_reg, y_reg = make_regression_data(200)
col0 = [x[0] for x in X_reg]
col1 = [x[1] for x in X_reg]
col0_s, m0, s0 = standardize(col0)
col1_s, m1, s1 = standardize(col1)
X_reg_scaled = [[col0_s[i], col1_s[i]] for i in range(len(X_reg))]
X_tr_r, y_tr_r, X_v_r, y_v_r, X_te_r, y_te_r = train_val_test_split(X_reg_scaled, y_reg)
reg_model = SimpleLinearRegression(lr=0.01, epochs=500)
reg_model.fit(X_tr_r, y_tr_r)
y_pred_r = [reg_model.predict(x) for x in X_te_r]
print(f" MSE: {mse(y_te_r, y_pred_r):.4f}")
print(f" RMSE: {rmse(y_te_r, y_pred_r):.4f}")
print(f" MAE: {mae(y_te_r, y_pred_r):.4f}")
print(f" R-squared: {r_squared(y_te_r, y_pred_r):.4f}")
mean_baseline = [sum(y_tr_r) / len(y_tr_r)] * len(y_te_r)
print(f"\n Mean baseline:")
print(f" MSE: {mse(y_te_r, mean_baseline):.4f}")
print(f" R-squared: {r_squared(y_te_r, mean_baseline):.4f}")
print("\n=== Learning Curve ===")
sizes, train_sc, val_sc = learning_curve(
X_clf, y_clf,
model_fn=lambda: SimpleLogistic(lr=0.1, epochs=200),
metric_fn=accuracy,
)
print(f" {'Size':>6} {'Train':>8} {'Val':>8}")
for s, tr, va in zip(sizes, train_sc, val_sc):
print(f" {s:>6} {tr:>8.4f} {va:>8.4f}")
print("\n=== Statistical Model Comparison ===")
model_a_scores = cross_validate(
X_clf, y_clf,
model_fn=lambda: SimpleLogistic(lr=0.1, epochs=100),
k=5, metric_fn=accuracy,
)
model_b_scores = cross_validate(
X_clf, y_clf,
model_fn=lambda: SimpleLogistic(lr=0.1, epochs=500),
k=5, metric_fn=accuracy,
)
diffs = [a - b for a, b in zip(model_a_scores, model_b_scores)]
mean_diff = sum(diffs) / len(diffs)
std_diff = math.sqrt(sum((d - mean_diff) ** 2 for d in diffs) / len(diffs))
t_stat = mean_diff / (std_diff / math.sqrt(len(diffs))) if std_diff > 0 else 0.0
print(f" Model A (100 epochs) mean: {sum(model_a_scores)/len(model_a_scores):.4f}")
print(f" Model B (500 epochs) mean: {sum(model_b_scores)/len(model_b_scores):.4f}")
print(f" Mean difference: {mean_diff:.4f}")
print(f" Paired t-statistic: {t_stat:.4f}")
print(f" (|t| > 2.78 for significance at p<0.05 with df=4)")
Use-o
Com scikit-learn, a avaliação é incorporada ao fluxo de trabalho:
from sklearn.model_selection import cross_val_score, StratifiedKFold, learning_curve
from sklearn.metrics import (
accuracy_score, precision_score, recall_score, f1_score,
roc_auc_score, confusion_matrix, mean_squared_error, r2_score,
)
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
scores = cross_val_score(model, X, y, cv=StratifiedKFold(5), scoring="f1")
As versões do zero mostram exatamente o que a validação cruzada faz (sem mágica, apenas for-loops e rastreamento de índice), como cada métrica é calculada (apenas contando TP/FP/TN/FN) e por que a estratificação é importante (preservando as proporções de classe em cada dobra). As versões da biblioteca adicionam paralelismo, mais opções de pontuação e integração com pipelines.
Envie
Esta lição produz:
outputs/skill-evaluation.md- uma habilidade que abrange estratégia de avaliação para modelos de classificação e regressão
Exercícios
- Implementar curvas de recuperação de precisão: plotar precisão versus recuperação em diferentes limites. Calcule a precisão média (área sob a curva PR). Compare a curva PR com a curva ROC em um conjunto de dados desequilibrado e explique quando cada uma é mais informativa.
- Construa um loop de validação cruzada aninhado: o loop externo avalia o desempenho do modelo, o loop interno ajusta os hiperparâmetros. Use-o para comparar dois modelos de forma justa, sem vazar dados de validação na avaliação.
- Implemente um teste de permutação para comparação de modelos: embaralhe os rótulos, treine novamente e meça o desempenho. Repita 100 vezes para construir uma distribuição nula. Calcule o valor p para o desempenho do modelo observado em relação a esta distribuição.
Termos-chave
| Prazo | O que as pessoas dizem | O que isso realmente significa |
|---|---|---|
| Sobreajuste | “Memorizando os dados de treinamento” | O modelo captura ruído nos dados de treinamento, apresentando bom desempenho no treinamento, mas fraco em dados não vistos |
| Validação cruzada | "Testando em diferentes subconjuntos" | Girar sistematicamente qual parte dos dados é usada para validação, calculando a média dos resultados em todas as rotações |
| Precisão | “Quantos positivos previstos estão corretos” | TP / (TP + FP): a fração de previsões positivas que são realmente positivas |
| Lembrar | "Quantos pontos positivos reais encontramos" | TP / (TP + FN): fração de positivos reais que foram corretamente identificados |
| AUC-ROC | “Quão bem o modelo separa as classes” | A área sob a curva da taxa de verdadeiros positivos versus taxa de falsos positivos em todos os limites, de 0,5 (aleatório) a 1,0 (perfeito) |
| R-quadrado | “Quanta variação é explicada” | 1 - (soma dos quadrados dos resíduos / soma total dos quadrados): a fração da variância alvo capturada pelo modelo |
| Vazamento de dados | “A modelo trapaceou” | Utilizar informações durante o treinamento que não estariam disponíveis no momento da previsão, levando a uma avaliação otimista |
| Curva de aprendizagem | “Como o desempenho muda com mais dados” | Um gráfico de pontuações de treinamento e validação versus tamanho do conjunto de treinamento, revelando underfitting ou overfitting |
| Divisão estratificada | “Manter os rácios de classes equilibrados” | Divisão de dados para que cada subconjunto tenha a mesma proporção de cada classe que o conjunto de dados completo |
Leitura Adicional
- scikit-learn Guia de seleção de modelo - referência abrangente sobre validação cruzada, métricas e ajuste de hiperparâmetros
- Além da precisão: precisão e recall (Google ML Crash Course) - explicação clara com exemplos interativos
- A Survey of Cross-Validation Procedures (Arlot & Celisse, 2010) - tratamento rigoroso de quando e por que diferentes estratégias de CV funcionam