神经网络与深度学习第四次课程总结——RNN的核心结构及其演进技术

当序列长度超过50步时，梯度在反向传播中呈指数衰减，导致模型难以学习到“The cat…sat on the mat”中开头单词与结尾的关联。解决了这一难题——它像人类阅读文本一样，将历史信息存储在隐状态中，逐时刻更新对上下文的理解。本文将深入探讨RNN的核心结构及其演进技术。在自然语言处理和时间序列分析中，传统神经网络难以捕捉数据间的时序关联。循环神经网络（RNN）通过引入。

宗臻636

2004人浏览 · 2025-06-03 11:45:14

宗臻636 · 2025-06-03 11:45:14 发布

引言：序列建模的挑战与机遇

在自然语言处理和时间序列分析中，传统神经网络难以捕捉数据间的时序关联。循环神经网络（RNN）通过引入记忆机制解决了这一难题——它像人类阅读文本一样，将历史信息存储在隐状态中，逐时刻更新对上下文的理解。本文将深入探讨RNN的核心结构及其演进技术。

一、RNN基础：时序信息的记忆者

1.1 序列建模的核心思想

自回归特性：当前时刻的预测（如股票价格）依赖于历史观测值，早期模型通过固定时间窗口（如前5天数据）预测当前值
状态向量革新：引入马尔可夫假设后，模型用隐状态向量 $h_t$ 浓缩历史信息，实现更高效的记忆传递

1.2 RNN的工作机制

# 伪代码展示RNN计算过程
for t in sequence:
    h_t = tanh( W_input * x_t + W_hidden * h_{t-1} + bias )  # 核心公式
    y_t = sigmoid( W_output * h_t )  # 如情感分类输出

隐状态 $h_t$ ：充当网络的“记忆单元”，通过 $tanh⁡\tanh$ 激活函数控制数值范围
典型应用：IMDB影评情感分析中，最终时刻的 $h_T$ 可判断整段文本的情感倾向

二、RNN的进化：突破长程依赖瓶颈

2.1 经典RNN的缺陷

当序列长度超过50步时，梯度在反向传播中呈指数衰减，导致模型难以学习到“The cat… sat on the mat”中开头单词与结尾的关联

2.2 门控机制的革命

模型	核心创新	优势对比
GRU	重置门+更新门	参数少，训练速度快
LSTM	三重门控+记忆细胞	长序列处理更强

GRU工作流程（以文本生成为例）：
1. 重置门决定遗忘多少历史信息
2. 更新门平衡新旧记忆比例
3. 候选状态融合当前输入与筛选后的历史
4. 最终隐状态 = (历史状态 × 更新权重) + (候选状态 × 新信息权重)
LSTM的独特设计：
- 遗忘门：选择性丢弃记忆细胞中的信息（如：遇到新段落时清空无关内容）
- 输入门：将重要新信息写入记忆细胞（如：识别关键实体名词）
- 输出门：控制当前时刻的信息输出强度