【图像超分入门】第三章：注意力机制《RCAN与HAN：注意力改变超分格局》

图像超分是通过算法将低分辨率图像重建为高分辨率图像的技术，提升画质细节，广泛应用于遥感、医疗、安防等领域。核心方法包括插值、深度学习和生成对抗网络（GAN）。

程序猿0067

1088人浏览 · 2025-04-04 01:16:28

程序猿0067 · 2025-04-04 01:16:28 发布

引言：注意力机制的崛起

在深度学习超分辨率领域，卷积神经网络(CNN)长期占据主导地位，但传统的卷积操作存在一个根本性局限——所有位置的像素被平等对待。2018年后，注意力机制的引入彻底改变了这一局面，让网络能够"学会"重点关注那些对重建最重要的区域和特征。本文将深入剖析两个里程碑式工作：RCAN（残差通道注意力网络）和HAN（混合注意力网络），揭示它们如何通过不同的注意力机制设计推动超分技术前进。

一、通道注意力：RCAN的核心突破

1.1 通道注意力的数学本质

RCAN提出的通道注意力模块(Channel Attention Module, CAM)基于一个关键发现：不同特征通道对最终重建的贡献是不均等的。其数学表达简洁而强大：

其中：

FF：输入特征图
GAPGAP：全局平均池化
MLPMLP：多层感知机（实际中常用含瓶颈层的两层网络）
σσ：Sigmoid激活函数
⋅⋅：通道级乘法

这个公式的意义在于：网络自动学习每个通道的权重系数，放大重要特征，抑制次要或干扰特征。

二、混合注意力：HAN的进阶设计

2.1 空间注意力的补充作用

HAN发现仅关注通道维度是不够的——图像不同空间区域的重要性也存在差异。例如在面部超分中，眼睛和嘴巴区域通常比脸颊需要更多细节重建。因此HAN在通道注意力基础上增加了：

空间注意力模块：
- 通过1x1卷积计算空间权重图
- 突出重要区域，弱化背景干扰
混合策略：
- 并行计算通道和空间注意力
- 通过可学习权重融合两种注意力结果

2.2 注意力机制的演进对比

模型	注意力类型	计算开销	适用场景
RCAN	仅通道注意力	低	通用超分任务
HAN	通道+空间混合	中	复杂结构图像
SAN	二阶注意力	高	超高精度重建

三、残差密集连接：稳定训练深度网络

3.1 残差密集块设计

RCAN/HAN都采用了类似的残差密集块(Residual Dense Block)结构：

每个块包含多个卷积层
所有层输出通过密集连接(dense connection)传递
最终通过残差连接(shortcut)跨块传播

优势分析：

缓解梯度消失问题（关键在超深层网络中）
促进特征重用（各层信息直接流通）
自适应融合多尺度特征

3.2 深层网络训练技巧

在DIV2K数据集上训练时，作者采用了以下关键策略：

渐进式热身：初始阶段用小尺寸patch(48x48)，后期逐步增大
自适应损失加权：不同阶段调整L1损失和感知损失的比重
梯度裁剪：限制最大梯度值避免震荡

四、实战案例：DIV2K数据集调参指南

4.1 数据准备关键点

退化流程：
- 使用更真实的模糊核（非理想bicubic）
- 添加符合传感器特性的噪声（如泊松噪声）
增强策略：
- 结构化旋转（仅90°倍数，避免插值伪影）
- 颜色抖动（亮度/对比度微调）

4.2 模型调参经验

超参数	推荐值	调整建议
初始学习率	1×10⁻⁴	每100K迭代衰减0.5倍
批量大小	16-32	根据GPU显存调整
损失权重	L1:VGG=100:1	质量优先可增大VGG权重
训练轮次	300-500K迭代	监控验证集PSNR早停