通俗易懂讲透RMSProp优化算法

本文用通俗易懂的方式讲解了RMSProp优化算法，适合深度学习初学者和面试复习。RMSProp通过梯度平方的指数滑动平均实现自适应学习率，解决了AdaGrad学习率无限衰减的问题，使训练更稳定高效。文章包含形象比喻（如"下山找谷底"）、公式拆解、可运行代码（优化Rosenbrock函数）及优化算法对比表。RMSProp特别适合RNN训练和不稳定梯度场景，但不适用于稀疏数据。最后

在外追梦的打工人

1082人浏览 · 2026-04-09 14:53:08

在外追梦的打工人 · 2026-04-09 14:53:08 发布

通俗易懂讲透RMSProp优化算法（本科生/研究生都能看懂）

本文用大白话+形象比喻+公式拆解+可运行代码+对比总结，把RMSProp从原理、流程、优缺点到适用场景讲得清清楚楚，适合深度学习入门、面试复习、课程笔记。

一、先搞懂：我们为什么需要RMSProp？

训练模型就是不断调参，让损失函数最小。
最基础的梯度下降（SGD）有两个致命问题：

固定学习率太死板：陡峭区域步子太大容易震荡，平坦区域步子太小收敛极慢
不同参数梯度差异大：有的参数更新疯快，有的几乎不动，训练很不稳定

于是就有了RMSProp：

AdaGrad的升级版，用指数滑动平均解决学习率无限衰减的问题

一句话总结：
RMSProp = 自适应学习率 + 梯度平方平滑，自动给每个参数调步子，稳又快。

二、RMSProp 是什么？（超形象比喻）

RMSProp（Root Mean Square Propagation）全称均方根传播，是经典自适应优化算法。

把优化比作下山找谷底：

普通梯度下降：不管坡陡不陡，每一步都一样大，容易摔或走不动
AdaGrad：越走步子越小，后期直接“不走了”
RMSProp：只记最近几步的坡度，陡就走小步，平就走大步，不会越走越慢

核心逻辑：
用梯度平方的指数加权移动平均，动态缩放每个参数的学习率。

三、RMSProp 核心思想（不用公式也能懂）

记录近期梯度平方：不算历史总和，只算最近的滑动平均，避免学习率一直衰减
自适应缩放步长：梯度大→学习率变小，梯度小→学习率变大
防止除0：加一个极小值ε，保证分母不为0
平稳更新：平滑梯度波动，让训练更稳定

四、RMSProp 公式一步步拆解（详细易懂）

1. 先看标准梯度下降（对照）

$θt+1=θt−η⋅gt\theta_{t+1} = \theta_t - \eta \cdot g_t$

$η\eta$ ：固定学习率
$g_t$ ：当前梯度
缺点：所有参数同一步长，不智能。

2. RMSProp 核心公式（3步搞定）

第1步：更新梯度平方的指数滑动平均

$E[g2]t=γ⋅E[g2]t−1+(1−γ)⋅gt2E[g^2]_t = \gamma \cdot E[g^2]_{t-1} + (1-\gamma) \cdot g_t^2$

$γ\gamma$ ：衰减率，默认0.9，控制“记忆长度”
$E[g^2]_t$ ：近期梯度平方的平滑值
只记最近的梯度，不会无限累积

第2步：计算自适应学习率

$lrt=ηE[g2]t+ϵ\text{lr}_t = \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}}$

$η\eta$ ：基础学习率
$ϵ\epsilon$ ：极小值，默认 $10^{-8}$ ，防止分母为0

第3步：更新参数

$θt+1=θt−lrt⋅gt\theta_{t+1} = \theta_t - \text{lr}_t \cdot g_t$

✅ 直白解释：

梯度大→ $E[g^2]$ 大→学习率小→走慢
梯度小→ $E[g^2]$ 小→学习率大→走快

五、RMSProp 完整算法流程（4步背会）

初始化参数 $θ\theta$ 、梯度平方平均 $E[g^2]=0$
计算当前梯度 $g_t$
更新梯度平方滑动平均 $E[g^2]_t$
用自适应学习率更新参数 $θ\theta$
重复直到收敛

六、代码实战：RMSProp 优化 Rosenbrock 函数

直接复制可运行，包含手动实现RMSProp + 可视化对比。

import numpy as np
import matplotlib.pyplot as plt

# ===================== 1. 定义测试函数：Rosenbrock（香蕉函数）=====================
def rosenbrock(x):
    return (1 - x[0])**2 + 100 * (x[1] - x[0]**2)**2

def grad_rosenbrock(x):
    dx = -2*(1 - x[0]) - 400*x[0]*(x[1] - x[0]**2)
    dy = 200*(x[1] - x[0]**2)
    return np.array([dx, dy])

# ===================== 2. RMSProp 算法实现 =====================
def rmsprop(f, grad_f, x0, lr=0.001, gamma=0.9, epsilon=1e-8, max_iter=10000, tol=1e-8):
    x = x0.copy()
    E_g2 = np.zeros_like(x)  # 梯度平方滑动平均
    path = [x.copy()]
    loss = [f(x)]
    
    for i in range(max_iter):
        g = grad_f(x)
        if np.linalg.norm(g) < tol:
            print(f"收敛于迭代：{i}")
            break
        
        # RMSProp核心
        E_g2 = gamma * E_g2 + (1 - gamma) * (g ** 2)
        x -= lr * g / (np.sqrt(E_g2) + epsilon)
        
        path.append(x.copy())
        loss.append(f(x))
    
    return np.array(path), np.array(loss)

# ===================== 3. 运行优化 =====================
x0 = np.array([-1.5, 2.0])
path_rms, loss_rms = rmsprop(rosenbrock, grad_rosenbrock, x0)

# ===================== 4. 可视化 =====================
plt.figure(figsize=(12,5))

# 等高线+优化路径
plt.subplot(121)
X, Y = np.meshgrid(np.linspace(-2,2,400), np.linspace(-1,3,400))
Z = (1-X)**2 + 100*(Y-X**2)**2
plt.contourf(X,Y,Z,50,cmap='plasma')
plt.contour(X,Y,Z,50,colors='k',linewidths=0.5)
plt.plot(path_rms[:,0], path_rms[:,1], 'bo-', markersize=3, label='RMSProp路径')
plt.title('RMSProp 优化路径')
plt.legend()

# 损失曲线
plt.subplot(122)
plt.plot(loss_rms, 'r-', label='损失值')
plt.title('损失下降曲线')
plt.xlabel('迭代次数')
plt.ylabel('损失')
plt.grid(linestyle='--')
plt.legend()

plt.tight_layout()
plt.show()

七、RMSProp 优点（面试必背）

自适应学习率：每个参数自动调整，不用手动衰减
解决AdaGrad缺陷：用滑动平均，学习率不会无限变小
抑制震荡：高梯度区域自动缩小步长，稳定不爆炸
内存占用小：只存一个梯度平方平均，轻量高效
RNN神器：对循环神经网络训练效果特别好

八、RMSProp 缺点（必须知道）

没有动量：缺少惯性，平坦区域收敛比Adam慢
超参数敏感：学习率和衰减率需要手动调优
稀疏梯度一般：不如AdaGrad适合NLP等稀疏场景
默认无理论收敛保证：实践好用但理论弱于SGD

九、优化算法对比表（速记）

算法	自适应学习率	动量	核心特点	适用场景
SGD	❌	❌	简单、泛化好	小数据集、高精度
Momentum	❌	✅	惯性加速	通用场景
AdaGrad	✅	❌	累积平方梯度	稀疏数据
RMSProp	✅	❌	滑动平均、不衰减	RNN、不稳定梯度
Adam	✅	✅	动量+RMSProp	深度学习首选

十、什么时候用 RMSProp？

✅ 推荐用 RMSProp

循环神经网络（RNN/LSTM/GRU）训练
梯度不稳定、曲率变化大的非凸问题
轻量级模型、资源有限场景
不想用复杂Adam，想要稳定收敛

❌ 不推荐用 RMSProp

极度稀疏数据（NLP/推荐）→ 用AdaGrad
追求最快收敛 → 用Adam
小数据集、追求泛化能力 → 用SGD+Momentum

十一、一句话总结

RMSProp 是AdaGrad的改良版，用梯度平方滑动平均实现自适应学习率，稳定不衰减，是RNN等不稳定梯度场景的经典优化器。
综合最强的是它的“儿子”——Adam。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动