⚔️ 0. 深度学习的核心概念

2026 年 6 月 10 日·10 min read·1878 字

深度学习 # 深度学习 # 神经网络 # Transformer # CNN # RNN

来源：《深度学习笔记》— 0. 深度学习的核心概念

本章给出深度学习领域 18 个最常用的术语定义，作为后续章节的索引与速查表。

1. 感知机（Perceptron）

感知机是一种接受多个输入信号并输出一个信号的二分类机器学习模型，本质上是对输入向量与权重向量做加权求和并加上偏置后，通过阶跃型激活函数输出结果。它是最早的人工神经元模型，用于解决线性可分问题，其数学形式为：

y=f\left(\sum_{i=1}^{n} w_i x_i + b\right)

感知机的局限在于无法表示非线性可分问题（如异或问题），这一缺陷直接推动了多层神经网络的发展。

2. 神经网络（Neural Network）

神经网络是一种通过多层非线性函数组合来逼近未知输入—输出映射关系的参数化计算模型。它由大量神经元按照一定拓扑结构连接而成，通常包括输入层、若干隐藏层和输出层。

根据通用逼近定理，只要隐藏层神经元数量足够，前馈神经网络可以在任意精度下逼近连续函数，这构成了深度学习理论上的重要基础。

3. 激活函数（Activation Function）

激活函数是施加在神经元加权求和结果上的非线性函数，用于引入非线性表达能力，使神经网络能够表示复杂映射关系。

若无激活函数，任意多层网络将等价于单层线性模型。常见激活函数包括 Sigmoid、Tanh、ReLU 及其变体，其中 ReLU 因计算简单、梯度消失问题较轻而在深度网络中被广泛采用。

4. 正向传播（Forward Propagation）

正向传播是指在神经网络中，输入数据从输入层开始，依次经过各层的线性变换与激活函数计算，最终得到输出结果的过程。

该过程本质上是复合函数的逐层计算，其结果不仅用于预测，还为反向传播阶段的梯度计算保存中间变量。

5. 损失函数（Loss Function）

损失函数用于度量模型预测结果与真实标签之间的差异，是模型优化的直接目标函数。通过最小化损失函数，模型参数得以逐步调整。

不同任务对应不同损失函数，如均方误差用于回归问题，交叉熵损失用于分类问题。损失函数的选择直接影响模型的收敛速度与最终性能。

6. 梯度（Gradient）

梯度是损失函数对模型参数的偏导数组成的向量，描述了参数空间中损失函数变化最快的方向。

梯度在训练过程中用于指导参数更新，是梯度下降法及其变种（如随机梯度下降、Adam 等）的核心数学依据。

7. 反向传播（Backpropagation）

反向传播是利用链式法则，从输出层开始逐层向前一层传播误差信号，并计算各层参数梯度的过程。

它显著降低了多层网络梯度计算的计算复杂度，使深层神经网络的高效训练成为可能，是现代深度学习算法的基础支柱之一。

8. 简单层（Simple Layer / 基本层）

简单层通常指神经网络中仅包含线性变换或逐元素非线性运算的基础计算单元，如 ReLU 层、Sigmoid 层、加法层等。

这类层不包含可学习参数或仅包含极少参数，但在构建复杂网络结构时起到关键的功能性作用。

9. Affine 层 / SoftMax 层

Affine 层是实现线性变换的网络层，其计算形式为：

y=Wx+b

其中 $W$ 和 $b$ 为可训练参数。

Softmax 层通常位于分类网络的输出端，用于将任意实数向量映射为概率分布，其输出各分量非负且和为 1，便于与交叉熵损失函数配合使用。

10. 误差反向传播法（Backpropagation Algorithm）

误差反向传播法是一种基于梯度下降的参数学习算法，其核心思想是将输出误差逐层反向传递，并据此修正各层权重。

该方法系统性地解决了多层神经网络中参数更新的问题，是神经网络从"理论模型"走向"可训练系统"的关键技术突破。

11. 卷积神经网络（CNN）

卷积神经网络是一类专门用于处理具有网格结构数据（如图像）的深度神经网络，其核心特征包括：

局部连接
权值共享
池化操作

CNN 能够有效提取局部空间特征并逐层构建高层语义表示，在计算机视觉等领域取得了显著成功。

12. 循环神经网络（RNN）

循环神经网络是一类用于处理序列数据的神经网络，其核心是引入隐藏状态：

h_t = \tanh(W_h h_{t-1} + W_x x_t + b)

使网络在处理当前输入时能"记住"之前的信息。普通 RNN 受梯度消失/爆炸限制难以学习长程依赖，由此衍生出：

LSTM（三门机制：遗忘门、输入门、输出门）
GRU（重置门、更新门）

等门控变体。

13. 注意力机制（Attention Mechanism）

注意力机制通过计算 Query 与 Key 的相关性得分，对 Value 加权汇总，使模型能动态地"关注"输入中最相关的部分。

自注意力（Self-Attention）的标准形式为：

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V

是 Transformer 的核心计算单元。

14. Transformer

完全基于注意力机制的序列建模架构（2017，《Attention Is All You Need》），抛弃循环结构实现并行训练。

由多头自注意力、前馈网络、残差连接与层归一化堆叠而成，需要位置编码来注入顺序信息。BERT（Encoder）、GPT（Decoder）、ViT（视觉）均为其变体，是现代大模型的基石。

15. 残差连接（Residual Connection）

将层的输入直接加到输出上，即：

y = F(x) + x

使网络只需学习"残差" $F(x)$ 。它为梯度提供了一条恒等捷径，缓解了深层网络的退化与梯度消失问题，是 ResNet（2015）能训练上百层网络的关键，也是 Transformer 每个子层的标配组件。

16. 批量归一化（Batch Normalization）

在层间将 mini-batch 的激活值规整为均值 0、方差 1，再用可学习参数 $\gamma, \beta$ 缩放平移。

能允许更大学习率、降低对初始化的敏感度并带来轻微正则化效果。Transformer 中常用的 Layer Normalization 则在单样本特征维度上归一化，与 batch 大小无关。

17. 过拟合与正则化（Overfitting & Regularization）

过拟合指模型过度记忆训练数据而泛化能力下降。常用对策包括：

权重衰减（L2 正则化）
Dropout（训练时随机失活神经元，相当于隐式集成学习）
早停
数据增强

详见《4.5 训练技巧》。

18. 嵌入（Embedding）

将离散符号（单词、token）映射为低维稠密连续向量的技术，使语义相近的符号在向量空间中距离相近。

嵌入层是 NLP 模型的第一层，也是"表示学习"思想最直接的体现。