【深度学习】U-Net系列(四):U-Net变体与改进版本

🔖 系列导航:[U-Net架构详解] → [医学图像分割应用] → [代码实现与实战] → [U-Net变体与改进]

📌 关键词:U-Net++、Attention U-Net、ResUNet、3D U-Net、TransUNet


1. 前言

自 2015 年 U-Net 提出以来,研究者针对其局限性进行了大量改进。本文介绍主流的 U-Net 变体及其核心创新点。


2. U-Net 变体概览

U-Net 演进路线

U-Net
2015

3D U-Net
2016

V-Net
2016

ResUNet
2017

Attention U-Net
2018

U-Net++
2018

U-Net 3+
2020

TransUNet
2021

Swin-UNet
2021


3. 主流变体详解

3.1 U-Net++

核心创新:嵌套的密集跳跃连接

U-Net++ 架构

X0,0

X1,0

X2,0

X3,0

X4,0

X0,1

X1,1

X0,2

特征聚合公式

Xi,j={H(Xi−1,j)j=0H([[Xi,k]k=0j−1,U(Xi+1,j−1)])j>0 X^{i,j} = \begin{cases} \mathcal{H}\left(X^{i-1, j}\right) & j = 0 \\ \mathcal{H}\left(\left[\left[X^{i,k}\right]_{k=0}^{j-1}, \mathcal{U}(X^{i+1, j-1})\right]\right) & j > 0 \end{cases} Xi,j={H(Xi1,j)H([[Xi,k]k=0j1,U(Xi+1,j1)])j=0j>0

其中 H\mathcal{H}H 为卷积操作,U\mathcal{U}U 为上采样,[⋅][\cdot][] 为拼接。

优势

  • 多尺度特征更充分融合
  • 支持深度监督
  • 模型剪枝灵活

3.2 Attention U-Net

核心创新:注意力门机制(Attention Gate)

Attention Gate

门控信号 g

1×1 Conv

跳跃连接 x

1×1 Conv

ReLU

1×1 Conv

σ

加权特征

注意力权重计算

αi=σ(Wψ⋅ReLU(Wg⋅gi+Wx⋅xi+b)) \alpha_i = \sigma\left(W_\psi \cdot \text{ReLU}(W_g \cdot g_i + W_x \cdot x_i + b)\right) αi=σ(WψReLU(Wggi+Wxxi+b))

x^i=αi⋅xi \hat{x}_i = \alpha_i \cdot x_i x^i=αixi

优势

  • 自动聚焦相关区域
  • 抑制不相关背景
  • 无需额外监督

3.3 ResUNet

核心创新:残差连接 + U-Net

残差块

输入 x

卷积块

输出

残差学习公式

y=F(x,{Wi})+x y = \mathcal{F}(x, \{W_i\}) + x y=F(x,{Wi})+x

优势

  • 缓解梯度消失
  • 支持更深网络
  • 训练更稳定

3.4 3D U-Net

核心创新:处理三维体数据

3D 卷积操作

y(i,j,k)=∑d,h,wx(i+d,j+h,k+w)⋅K(d,h,w) y(i,j,k) = \sum_{d,h,w} x(i+d, j+h, k+w) \cdot K(d,h,w) y(i,j,k)=d,h,wx(i+d,j+h,k+w)K(d,h,w)

3D U-Net 特点

3D 卷积核

体素级分割

3D 池化

保留空间连续性

3D 上采样

完整3D重建

适用场景

  • CT/MRI 体数据
  • 器官/肿瘤 3D 分割
  • 需要层间连续性的任务

3.5 TransUNet

核心创新:Transformer + CNN 混合架构

TransUNet 架构

跳跃连接

输入图像

CNN 编码器

Patch Embedding

Transformer 编码器

CNN 解码器

分割输出

自注意力机制

Attention(Q,K,V)=softmax(QKTdk)V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk QKT)V

多头注意力

MultiHead(Q,K,V)=Concat(head1,...,headh)WO \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O MultiHead(Q,K,V)=Concat(head1,...,headh)WO

优势

  • 全局上下文建模
  • 长距离依赖捕获
  • 结合 CNN 局部特征

4. 变体对比

4.1 特性对比

变体 核心创新 优势 适用场景
U-Net++ 密集跳跃连接 多尺度融合 通用分割
Attention U-Net 注意力门 聚焦关键区域 小目标分割
ResUNet 残差连接 深层训练稳定 复杂特征学习
3D U-Net 3D卷积 保留空间连续性 体数据分割
TransUNet Transformer 全局建模 需要全局信息

4.2 复杂度对比

模型复杂度

基准

+30%

+20%

+80%

U-Net

31M 参数

U-Net++

~40M 参数

Attention U-Net

~37M 参数

TransUNet

~105M 参数


5. 选型指南

2D 图像

3D 体数据

充足

较少

数据类型?

数据量?

3D U-Net / V-Net

需要全局信息?

U-Net / ResUNet

TransUNet / Swin-UNet

小目标多?

Attention U-Net

U-Net++

5.1 选型建议

场景 推荐模型
通用分割、快速原型 U-Net
医学图像、类别不平衡 Attention U-Net
多尺度目标 U-Net++
CT/MRI 体数据 3D U-Net
需要全局上下文 TransUNet
深层网络训练 ResUNet

6. 发展趋势

U-Net 发展趋势

Transformer 融合

更强全局建模

轻量化设计

边缘部署

自监督预训练

减少标注依赖

多任务学习

统一分割框架

6.1 前沿方向

方向 代表工作 特点
Vision Transformer Swin-UNet, UNETR 纯 Transformer 架构
高效架构 EfficientUNet 移动端部署
自监督 Self-supervised U-Net 无标签预训练
通用分割 SAM + U-Net 零样本/少样本

7. 总结

发展阶段 代表模型 核心技术
经典 U-Net 编码-解码 + 跳跃连接
改进 U-Net++, Attention 密集连接、注意力
3D扩展 3D U-Net, V-Net 3D卷积
Transformer TransUNet, Swin-UNet 自注意力

U-Net 家族持续演进,核心思想——编码-解码 + 多尺度融合——始终是图像分割的基石。


参考文献

  1. Zhou Z, et al. UNet++: A Nested U-Net Architecture. DLMIA 2018.
  2. Oktay O, et al. Attention U-Net: Learning Where to Look. MIDL 2018.
  3. Çiçek Ö, et al. 3D U-Net: Learning Dense Volumetric Segmentation. MICCAI 2016.
  4. Chen J, et al. TransUNet: Transformers Make Strong Encoders. arXiv 2021.

📚 系列完结:感谢阅读 U-Net 系列博客!

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐