深度学习中的矩阵运算与线性代数基础

在深度学习的实践中，矩阵运算和线性代数是不可或缺的数学基础。本文回顾一些核心概念，并探讨它们在神经网络中的应用。

损失函数与优化

在监督学习中，我们通常需要定义一个损失函数来衡量模型预测与真实值之间的差距。对于回归任务，常用的均方误差（MSE）损失函数定义为：

\[\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\]

对于分类任务，交叉熵损失函数更为常见：

\[L = -\sum_{i=1}^{n} \sum_{c=1}^{C} y_{i,c} \log(\hat{y}_{i,c})\]

其中 $C$ 是类别数，$y_{i,c}$ 是真实标签的 one-hot 编码。

通过梯度下降算法，我们可以最小化损失函数。更新规则为：

\[\theta_{t+1} = \theta_t - \alpha \nabla_\theta J(\theta_t)\]

其中 $\alpha$ 是学习率，$\nabla_\theta J(\theta_t)$ 是损失函数关于参数 $\theta$ 的梯度。

激活函数

激活函数为神经网络引入非线性，使得网络能够学习复杂的函数映射。

Sigmoid 函数

Sigmoid 函数将输入映射到 $(0, 1)$ 区间，常用于二分类问题的输出层：

\[\sigma(z) = \frac{1}{1 + e^{-z}}\]

其导数为：

\[\sigma'(z) = \sigma(z)(1 - \sigma(z))\]

ReLU 函数

ReLU（Rectified Linear Unit）是目前最常用的激活函数，计算简单且能有效缓解梯度消失问题：

\[\text{ReLU}(x) = \max(0, x) = \begin{cases} x & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}\]

Softmax 函数

Softmax 函数将向量转换为概率分布，常用于多分类问题的输出层：

\[\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}\]

矩阵运算与行列式

在深度学习中，矩阵运算是最基本的操作之一。理解矩阵的性质，特别是行列式，对于理解许多算法至关重要。

行列式的定义

对于一个 $n \times n$ 方阵 $\mathbf{A}$，其行列式记为 $\det(\mathbf{A})$ 或 $|\mathbf{A}|_F$。对于 $2 \times 2$ 矩阵：

\[\det\begin{pmatrix} a & b \\ c & d \end{pmatrix} = ad - bc\]

对于 $3 \times 3$ 矩阵，可以使用拉普拉斯展开：

\[\det\begin{pmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{pmatrix} = a_{11}\begin{vmatrix} a_{22} & a_{23} \\ a_{32} & a_{33} \end{vmatrix} - a_{12}\begin{vmatrix} a_{21} & a_{23} \\ a_{31} & a_{33} \end{vmatrix} + a_{13}\begin{vmatrix} a_{21} & a_{22} \\ a_{31} & a_{32} \end{vmatrix}\]

复杂行列式的计算

在实际应用中，我们经常遇到更复杂的行列式。例如，在计算协方差矩阵的行列式时：

\[\det(\boldsymbol{\Sigma}) = \begin{vmatrix} \sigma_{11} & \sigma_{12} & \sigma_{13} \\ \sigma_{21} & \sigma_{22} & \sigma_{23} \\ \sigma_{31} & \sigma_{32} & \sigma_{33} \end{vmatrix}\]

对于对称矩阵（如协方差矩阵），行列式的计算可以简化。如果矩阵是对角矩阵：

\[\det\begin{pmatrix} \lambda_1 & 0 & 0 \\ 0 & \lambda_2 & 0 \\ 0 & 0 & \lambda_3 \end{pmatrix} = \lambda_1 \lambda_2 \lambda_3\]

行列式在深度学习中的应用

行列式在深度学习中有着重要应用。例如，在变分自编码器（VAE）中，我们需要计算多元高斯分布的归一化常数：

\[\mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{\sqrt{(2\pi)^n \det(\boldsymbol{\Sigma})}} \exp\left(-\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1}(\mathbf{x} - \boldsymbol{\mu})\right)\]

其中 $\det(\boldsymbol{\Sigma})$ 是协方差矩阵的行列式。

在计算雅可比矩阵的行列式时，我们关注变换的缩放因子。对于变换 $\mathbf{y} = f(\mathbf{x})$，雅可比矩阵为：

\[\mathbf{J} = \begin{pmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_n}{\partial x_1} & \frac{\partial y_n}{\partial x_2} & \cdots & \frac{\partial y_n}{\partial x_n} \end{pmatrix}\]

行列式 $\det(\mathbf{J})$ 表示体积元素的缩放因子，在归一化流（Normalizing Flows）等模型中至关重要。

分块矩阵的行列式

对于分块矩阵，行列式的计算有特殊性质。如果 $\mathbf{A}$ 和 $\mathbf{D}$ 是可逆方阵：

\[\det\begin{pmatrix} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{pmatrix} = \det(\mathbf{A}) \det(\mathbf{D} - \mathbf{C}\mathbf{A}^{-1}\mathbf{B})\]

这个公式在计算大型矩阵的行列式时非常有用，可以降低计算复杂度。

神经网络前向传播

对于一个全连接层，前向传播可以表示为矩阵乘法：

\[\mathbf{h}^{(l+1)} = \sigma(\mathbf{W}^{(l)} \mathbf{h}^{(l)} + \mathbf{b}^{(l)})\]

其中：

$\mathbf{h}^{(l)}$ 是第 $l$ 层的激活值（列向量）
$\mathbf{W}^{(l)}$ 是权重矩阵，维度为 $m \times n$，其中 $m$ 是输出维度，$n$ 是输入维度
$\mathbf{b}^{(l)}$ 是偏置向量
$\sigma$ 是激活函数，逐元素应用

反向传播算法

反向传播算法通过链式法则计算梯度。对于输出层的梯度：

\[\frac{\partial L}{\partial \mathbf{z}^{(L)}} = \frac{\partial L}{\partial \mathbf{a}^{(L)}} \odot \sigma'(\mathbf{z}^{(L)})\]

其中 $\odot$ 表示逐元素乘法（Hadamard 积）。

对于隐藏层，梯度通过矩阵转置传播：

\[\frac{\partial L}{\partial \mathbf{z}^{(l)}} = \left(\mathbf{W}^{(l+1)}\right)^T \frac{\partial L}{\partial \mathbf{z}^{(l+1)}} \odot \sigma'(\mathbf{z}^{(l)})\]

权重更新规则为：

\[\mathbf{W}^{(l)} \leftarrow \mathbf{W}^{(l)} - \alpha \frac{\partial L}{\partial \mathbf{W}^{(l)}}\]

注意力机制

Scaled Dot-Product Attention

Transformer 架构的核心是注意力机制。Scaled Dot-Product Attention 定义为：

\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V\]

其中：

$Q$ 是查询矩阵（Query），维度为 $n \times d_k$
$K$ 是键矩阵（Key），维度为 $m \times d_k$
$V$ 是值矩阵（Value），维度为 $m \times d_v$
$d_k$ 是键的维度
$\sqrt{d_k}$ 是缩放因子，用于防止点积值过大导致 softmax 梯度消失

Multi-Head Attention

多头注意力机制允许模型同时关注不同的表示子空间：

\[\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O\]

其中每个注意力头为：

\[\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)\]

$W_i^Q$、$W_i^K$、$W_i^V$ 分别是第 $i$ 个头的查询、键、值投影矩阵，$W^O$ 是输出投影矩阵。

优化算法

Adam 优化器

Adam（Adaptive Moment Estimation）结合了动量和自适应学习率的优点。它维护两个移动平均：

\[m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t\] \[v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2\]

其中 $g_t$ 是当前梯度，$\beta_1$ 和 $\beta_2$ 是衰减率（通常设为 0.9 和 0.999）。

为了修正偏差，计算偏差修正项：

\[\hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t}\]

最终参数更新为：

\[\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t\]

其中 $\alpha$ 是学习率，$\epsilon$ 是一个小的常数（通常为 $10^{-8}$），用于数值稳定性。

正则化技术

Dropout

Dropout 通过在训练时随机丢弃神经元来防止过拟合。对于第 $i$ 个神经元：

\[h_i = \begin{cases} \frac{x_i}{1-p} & \text{with probability } 1-p \\ 0 & \text{with probability } p \end{cases}\]

其中 $p$ 是丢弃概率。在测试时，所有神经元都参与计算，但输出需要乘以 $(1-p)$ 以保持期望值不变。

L2 正则化

L2 正则化通过在损失函数中添加权重惩罚项来限制模型复杂度：

\[L_{\text{reg}} = L + \lambda \sum_{l=1}^{L} \|\mathbf{W}^{(l)}\|_F^2\]

其中 $\lambda$ 是正则化系数，$|\cdot|_F$ 是 Frobenius 范数（矩阵所有元素平方和的平方根）。L2 正则化倾向于产生较小的权重值，从而减少模型的复杂度。

总结

本文回顾了深度学习中常用的数学概念，包括损失函数、激活函数、矩阵运算、行列式、前向和反向传播、注意力机制、优化算法和正则化技术。这些基础知识对于理解和实现深度学习模型至关重要。在实际应用中，理解这些公式背后的数学原理，有助于更好地调试和优化模型。