循环神经网络（RNN）的损失函数与传播过程详解

RNN通过前向传播计算隐藏状态和输出，通过反向传播计算梯度并更新参数。链式法则是反向传播的核心，用于计算损失函数对参数的梯度。梯度消失和梯度爆炸是RNN训练中的常见问题，可通过LSTM、GRU等改进模型缓解。

六月五日

1079人浏览 · 2025-02-25 21:22:29

六月五日 · 2025-02-25 21:22:29 发布

循环神经网络（RNN）的损失函数与传播过程详解

1. 损失函数

1.1 任务类型

RNN的损失函数取决于具体任务：

分类任务：交叉熵损失
回归任务：均方误差（MSE）损失

1.2 数学表示

对于分类任务，损失函数通常为交叉熵损失：
$L=−∑t=1T∑i=1Cyt,ilog⁡(y^t,i) L = -\sum_{t=1}^T \sum_{i=1}^C y_{t,i} \log(\hat{y}_{t,i})$
其中：

$T$ 为序列长度
$C$ 为类别数
$y_{t,i}$ 为真实标签的one-hot表示
$y^t,i\hat{y}_{t,i}$ 为模型预测的概率分布

2. 前向传播

2.1 基本步骤

初始化隐藏状态 $h_0$ （通常为零向量）。
对每个时间步 $t = 1$ 到 $T$ ：
- 计算隐藏状态：
  $h_t = \sigma(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$
- 计算输出：
  $o_t = W_{hy} h_t + b_y$
- 计算预测值：
  $y^t=softmax(ot) \hat{y}_t = \text{softmax}(o_t)$

2.2 数学表示

隐藏状态更新：
$h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$
输出计算：
$o_t = W_{hy} h_t + b_y$
预测值：
$y^t=softmax(ot) \hat{y}_t = \text{softmax}(o_t)$

3. 反向传播

3.1 基本步骤

计算损失函数 $L$ 对输出 $o_t$ 的梯度：
$∂L∂ot=y^t−yt \frac{\partial L}{\partial o_t} = \hat{y}_t - y_t$
计算损失函数 $L$ 对隐藏状态 $h_t$ 的梯度：
$\frac{\partial L}{\partial h_t} = \frac{\partial L}{\partial o_t} \frac{\partial o_t}{\partial h_t} + \frac{\partial L}{\partial h_{t+1}} \frac{\partial h_{t+1}}{\partial h_t}$
计算损失函数 $L$ 对参数 $W_{hh}, W_{xh}, W_{hy}, b_h, b_y$ 的梯度。

3.2 数学表示

输出层梯度：
权重矩阵梯度
$\frac{\partial L}{\partial W_{hy}} = \sum_{t=1}^T \frac{\partial L}{\partial o_t} h_t^\top$
偏置梯度
$∂L∂by=∑t=1T∂L∂ot\frac{\partial L}{\partial b_y} = \sum_{t=1}^{T} \frac{\partial L}{\partial o_t}$
隐藏层梯度：
$\frac{\partial L}{\partial W_{hh}} = \sum_{t=1}^T \frac{\partial L}{\partial h_t} \frac{\partial h_t}{\partial W_{hh}}$
$\frac{\partial L}{\partial W_{xh}} = \sum_{t=1}^T \frac{\partial L}{\partial h_t} \frac{\partial h_t}{\partial W_{xh}}$
$∂L∂bh=∑t=1T∂L∂ht∂ht∂bh\frac{\partial L}{\partial b_h} = \sum_{t=1}^T \frac{\partial L}{\partial h_t} \frac{\partial h_t}{\partial b_h}$

4. 反向传播链式法则示例

4.1 问题描述

考虑一个简单的RNN，序列长度 $T = 2$ ，隐藏状态维度 $d_h=2$ ，输入维度 $d_x=1$ ，输出维度 $d_y=1$ 。

4.2 前向传播

时间步 $t = 1$ ：
$h_1 = \tanh(W_{hh} h_0 + W_{xh} x_1 + b_h)$
$o_1 = W_{hy} h_1 + b_y$
$y^1=softmax(o1) \hat{y}_1 = \text{softmax}(o_1)$
时间步 $t = 2$ ：
$h_2 = \tanh(W_{hh} h_1 + W_{xh} x_2 + b_h)$
$o_2 = W_{hy} h_2 + b_y$
$y^2=softmax(o2) \hat{y}_2 = \text{softmax}(o_2)$

4.3 反向传播

计算损失函数 $L$ 对 $o_2$ 的梯度：
$∂L∂o2=y^2−y2 \frac{\partial L}{\partial o_2} = \hat{y}_2 - y_2$
计算损失函数 $L$ 对 $h_2$ 的梯度：
$\frac{\partial L}{\partial h_2} = \frac{\partial L}{\partial o_2} \frac{\partial o_2}{\partial h_2}$
计算损失函数 $L$ 对 $h_1$ 的梯度：
$\frac{\partial L}{\partial h_1} = \frac{\partial L}{\partial h_2} \frac{\partial h_2}{\partial h_1} + \frac{\partial L}{\partial o_1} \frac{\partial o_1}{\partial h_1}$
计算损失函数 $L$ 对参数 $W_{hh}, W_{xh}, W_{hy}, b_h, b_y$ 的梯度。

5. 数学附录

5.1 梯度计算

对于隐藏状态 $h_t$ 的梯度：
$\frac{\partial L}{\partial h_t} = \frac{\partial L}{\partial o_t} \frac{\partial o_t}{\partial h_t} + \frac{\partial L}{\partial h_{t+1}} \frac{\partial h_{t+1}}{\partial h_t}$
其中：
$\frac{\partial h_{t+1}}{\partial h_t} = W_{hh}^\top \text{diag}(1 - h_t^2)$

5.2 参数更新

使用梯度下降法更新参数：
$\eta \frac{\partial L}{\partial W}$
其中 $η\eta$ 为学习率。

6. 总结

RNN通过前向传播计算隐藏状态和输出，通过反向传播计算梯度并更新参数。
链式法则是反向传播的核心，用于计算损失函数对参数的梯度。
梯度消失和梯度爆炸是RNN训练中的常见问题，可通过LSTM、GRU等改进模型缓解。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

Python实现生物启发的脉冲神经元模型

在类脑计算与神经形态工程实践中，与的平衡始终是核心挑战。主流深度学习框架（如 PyTorch/TensorFlow）虽能高效模拟人工神经网络，但对等关键生物机制支持薄弱。本文不走“黑盒拟合”路线，而是基于与，构建一个轻量、可调试、符合皮层微环路结构特征的脉冲神经元模块，并完整实现带空间约束的 STDP 学习规则。