如何用PyTorch-DeepLab-Xception实现自定义数据集训练：从数据准备到模型部署的完整指南

PyTorch-DeepLab-Xception是一个基于PyTorch实现的DeepLab v3+模型，支持多种骨干网络，特别适用于图像语义分割任务。本指南将带您完成从自定义数据集准备到模型训练和部署的全过程，即使是深度学习新手也能轻松上手。## 📊 什么是图像语义分割？图像语义分割是计算机视觉领域的关键任务，它能将图像中的每个像素分配到特定类别（如人、汽车、树木等）。这一技术广泛应用

江燕娇

930人浏览 · 2026-04-21 12:19:56

江燕娇 · 2026-04-21 12:19:56 发布

如何用PyTorch-DeepLab-Xception实现自定义数据集训练：从数据准备到模型部署的完整指南

【免费下载链接】pytorch-deeplab-xception DeepLab v3+ model in PyTorch. Support different backbones. 项目地址: https://gitcode.com/gh_mirrors/py/pytorch-deeplab-xception

PyTorch-DeepLab-Xception是一个基于PyTorch实现的DeepLab v3+模型，支持多种骨干网络，特别适用于图像语义分割任务。本指南将带您完成从自定义数据集准备到模型训练和部署的全过程，即使是深度学习新手也能轻松上手。

📊 什么是图像语义分割？

图像语义分割是计算机视觉领域的关键任务，它能将图像中的每个像素分配到特定类别（如人、汽车、树木等）。这一技术广泛应用于自动驾驶、医学影像分析和智能监控等领域。

图：PyTorch-DeepLab-Xception模型在不同场景下的语义分割结果展示，左侧为原始图像，右侧为模型生成的分割掩码

📋 自定义数据集准备步骤

1. 数据集结构设计

参照项目中Pascal VOC数据集的实现（dataloaders/datasets/pascal.py），建议将自定义数据集组织为以下结构：

your_dataset/
├── JPEGImages/       # 存放所有原始图像（.jpg格式）
├── SegmentationClass/ # 存放对应的分割掩码（.png格式）
└── ImageSets/
    └── Segmentation/
        ├── train.txt  # 训练集图像ID列表
        └── val.txt    # 验证集图像ID列表

2. 分割掩码格式要求

掩码图像必须为单通道PNG格式
每个像素值代表对应类别的ID（从0开始）
确保背景类ID为0，其他类别ID连续递增

3. 数据集类实现

创建自定义数据集类，继承Dataset并实现以下核心方法：

class CustomDataset(Dataset):
    NUM_CLASSES = 你的类别数  # 例如：10
    
    def __init__(self, args, base_dir="your_dataset_path", split='train'):
        # 初始化代码，参照pascal.py实现
        # 设置图像目录、掩码目录和文件列表
        
    def __len__(self):
        return len(self.images)
        
    def __getitem__(self, index):
        # 加载图像和掩码，应用数据变换
        _img, _target = self._make_img_gt_point_pair(index)
        sample = {'image': _img, 'label': _target}
        return self.transform_tr(sample) if split == 'train' else self.transform_val(sample)

🔧 数据加载器配置

1. 数据变换定义

在dataloaders/custom_transforms.py中添加或修改数据增强变换：

# 训练集变换（含数据增强）
composed_transforms = transforms.Compose([
    tr.RandomHorizontalFlip(),          # 随机水平翻转
    tr.RandomScaleCrop(base_size=513, crop_size=513),  # 随机缩放裁剪
    tr.RandomGaussianBlur(),            # 随机高斯模糊
    tr.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)),  # 标准化
    tr.ToTensor()                       # 转为Tensor
])

2. 数据加载器创建

使用PyTorch的DataLoader创建训练和验证数据加载器：

from torch.utils.data import DataLoader

train_dataset = CustomDataset(args, split='train')
val_dataset = CustomDataset(args, split='val')

train_loader = DataLoader(train_dataset, batch_size=4, shuffle=True, num_workers=4)
val_loader = DataLoader(val_dataset, batch_size=4, shuffle=False, num_workers=4)

🚀 模型训练流程

1. 训练脚本准备

项目提供了完整的训练脚本train.py，其中training方法实现了核心训练逻辑：

def training(self, epoch):
    # 训练循环实现
    self.model.train()
    for i, sample in enumerate(self.train_loader):
        # 前向传播、损失计算和反向传播

2. 训练配置文件

创建自定义训练配置脚本（参考train_voc.sh）：

#!/bin/bash
python train.py --dataset custom --data_root ./your_dataset \
    --model deeplab --backbone xception --out_stride 16 \
    --lr 0.007 --epochs 50 --batch_size 4 \
    --crop_size 513 --base_size 513 \
    --save_dir ./run/custom/exp1 --eval_interval 1

3. 开始训练

执行训练脚本：

git clone https://gitcode.com/gh_mirrors/py/pytorch-deeplab-xception
cd pytorch-deeplab-xception
chmod +x train_custom.sh
./train_custom.sh

📈 模型评估与优化

1. 评估指标计算

使用utils/metrics.py中的评估函数计算mIoU（平均交并比）：

from utils.metrics import Evaluator

evaluator = Evaluator(num_classes=NUM_CLASSES)
evaluator.reset()

# 在验证集上计算指标
for sample in val_loader:
    # 模型预测
    output = model(sample['image'])
    evaluator.add_batch(sample['label'], output)

mIoU = evaluator.Mean_Intersection_over_Union()
print(f"Validation mIoU: {mIoU:.4f}")

2. 常见问题解决

过拟合：增加数据增强、使用早停策略或添加正则化
训练不稳定：调整学习率、使用梯度裁剪或批量归一化
类别不平衡：使用utils/calculate_weights.py计算类别权重

📦 模型部署指南

1. 模型保存与加载

训练完成后，使用以下代码保存模型：

torch.save(model.state_dict(), 'deeplab_custom.pth')

加载模型进行推理：

model.load_state_dict(torch.load('deeplab_custom.pth'))
model.eval()

2. 推理代码示例

from PIL import Image
import torchvision.transforms as transforms
import numpy as np

# 图像预处理
transform = transforms.Compose([
    transforms.Resize((513, 513)),
    transforms.ToTensor(),
    transforms.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225))
])

# 加载图像并推理
image = Image.open('test.jpg').convert('RGB')
input_tensor = transform(image).unsqueeze(0)
with torch.no_grad():
    output = model(input_tensor)['out']
pred_mask = output.argmax(1).squeeze().numpy()