🎨 7. 生成模型与模型评估

2026 年 6 月 10 日·6 min read·1085 字

来源：《深度学习笔记》— 7. 生成模型与模型评估

第一部分：生成模型概览

前面章节的模型（CNN 分类、序列预测）都是判别模型：学习 $p(y|x)$ ，给输入打标签。生成模型则学习数据分布 $p(x)$ 本身，从而能"创造"新样本。三大范式的演进体现了不同的建模哲学。

核心思想：把数据压缩到一个服从标准正态分布的潜在空间（latent space），再从中解码重建。

核心思想：两个网络博弈——生成器（Generator）努力造假，判别器（Discriminator）努力鉴别真假，在对抗中共同进步。

\min_G \max_D \; \mathbb{E}_{x}[\log D(x)] + \mathbb{E}_{z}[\log(1 - D(G(z)))]

核心思想：前向过程逐步往数据里加高斯噪声直到变成纯噪声；训练一个网络学习逆过程——从噪声中一步步去噪还原数据。

本质上是把"一步到位的生成"分解成上千个微小的去噪步骤，每一步都容易学习。

与大语言模型的关系：GPT 类自回归模型其实也是生成模型——把 $p(x)$ 分解为逐 token 的条件概率连乘。自回归 + 扩散，是当前生成式 AI 的两大主流路线。

第 3 章用 accuracy 评估 MNIST 分类，但 accuracy 在很多场景下会误导。

	预测为正	预测为负
实际为正	TP（真阳）	FN（假阴）
实际为负	FP（假阳）	TN（真阴）

精确率（Precision）：

P = \frac{TP}{TP + FP}

预测为正的样本中有多少是真的正。看重"不要误报"（如垃圾邮件拦截）。

召回率（Recall）：

R = \frac{TP}{TP + FN}

实际为正的样本中有多少被找出来了。看重"不要漏报"（如癌症筛查）。

F1 分数：

F_1 = \frac{2 P R}{P + R}

精确率与召回率的调和平均，二者的综合权衡。

若数据集中 99% 是负样本，一个"全部预测为负"的模型 accuracy 高达 99%，但召回率为 0，毫无价值。类别不平衡时必须看 Precision / Recall / F1。

以不同分类阈值下的假阳率为横轴、真阳率为纵轴画曲线，AUC（曲线下面积）衡量模型排序能力：

同时绘制训练集和验证集的损失/精度曲线：

调试顺序建议：先让模型在小数据集上过拟合（验证实现正确），再逐步加数据和正则化。如果连训练集都拟合不了，说明代码或模型有 bug，加正则化只会更糟。