机器学习数据缺失处理完整指南：从基础到高级的5大策略

在机器学习项目中，数据缺失是影响模型性能的常见问题。《机器学习训练秘籍》（Machine Learning Yearning）中文版强调，高质量的训练数据是构建可靠模型的基础。本文将系统介绍数据缺失处理的核心方法，帮助你从数据预处理阶段就规避潜在风险，提升模型准确性。## 为什么数据缺失处理至关重要？真实世界的数据往往不完整，可能因传感器故障、人工录入错误或样本采集限制导致部分特征值缺失。

柏纲墩Dean

977人浏览 · 2026-04-29 12:57:22

柏纲墩Dean · 2026-04-29 12:57:22 发布

机器学习数据缺失处理完整指南：从基础到高级的5大策略

【免费下载链接】machine-learning-yearning-cn Machine Learning Yearning 中文版 - 《机器学习训练秘籍》 - Andrew Ng 著项目地址: https://gitcode.com/gh_mirrors/ma/machine-learning-yearning-cn

在机器学习项目中，数据缺失是影响模型性能的常见问题。《机器学习训练秘籍》（Machine Learning Yearning）中文版强调，高质量的训练数据是构建可靠模型的基础。本文将系统介绍数据缺失处理的核心方法，帮助你从数据预处理阶段就规避潜在风险，提升模型准确性。

为什么数据缺失处理至关重要？

真实世界的数据往往不完整，可能因传感器故障、人工录入错误或样本采集限制导致部分特征值缺失。忽视这些缺失值会直接影响模型训练效果，甚至导致错误的预测结果。《机器学习训练秘籍》建议，在模型开发的早期阶段就应建立完善的数据质量评估流程，其中缺失值分析是关键环节。

图：数据质量评估是机器学习项目的基础步骤，缺失值处理是其中重要环节

策略1：删除法——快速但有风险的处理方式

删除包含缺失值的样本或特征是最简单直接的方法，适用于缺失比例极低（<5%）且随机分布的场景。但需注意：

当缺失比例较高时，可能导致样本量大幅减少
若缺失存在系统性偏差（如特定人群的数据缺失），删除操作会引入选择偏差
建议在删除前分析缺失模式，确保不会丢失关键信息

策略2：均值/中位数填充——基础统计方法

对于数值型特征，使用均值或中位数填充是最常用的基础方法：

均值填充适用于近似正态分布的数据
中位数填充对异常值更稳健，适合偏态分布特征
优点是操作简单，能保留样本量
缺点是会降低特征方差，可能掩盖数据分布特性

《机器学习训练秘籍》在讨论数据预处理时指出，简单填充方法虽然便捷，但在关键项目中需要更 sophisticated 的处理策略。

策略3：分组填充——考虑数据关联性

当特征间存在明显关联性时，分组填充能获得更合理的结果：

将数据按相关特征分组（如按"性别"分组处理"收入"缺失值）
在每个分组内计算统计量（均值/中位数/众数）进行填充
保持了数据内部的逻辑关系，比全局填充更精准

图：通过分组策略保留数据内在关联性，提升填充准确性

策略4：模型预测填充——高级数据恢复技术

对于重要特征的缺失值，可以利用其他特征训练预测模型：

使用完整样本训练回归/分类模型（视缺失特征类型而定）
将缺失特征作为目标变量，其他特征作为输入
常用模型包括决策树、随机森林和KNN
优点是能捕捉复杂的非线性关系，填充精度高
实现路径可参考项目中 _docs/Training and testing on different distributions/ch41.md 讨论的数据分布适配方法

策略5：多重插补——量化不确定性的高级方法

多重插补通过生成多个完整数据集来处理缺失值：

基于现有数据构建多个可能的缺失值估计
对每个完整数据集独立建模
综合所有模型结果，量化缺失值带来的不确定性
适用于缺失比例高且数据重要的场景

图：多重插补通过多次模拟缺失值，更全面地反映数据不确定性

缺失处理策略选择指南 📊

缺失情况	推荐方法	实施难度	适用场景
随机缺失(<5%)	删除法	⭐	探索性分析、样本量大
数值型特征	均值/中位数填充	⭐⭐	初步建模、数据分布平稳
类别相关特征	分组填充	⭐⭐	特征间存在明确关联
关键特征缺失	模型预测填充	⭐⭐⭐	核心特征、有充足样本
高缺失比例(>20%)	多重插补	⭐⭐⭐⭐	精确建模、研究类项目