BuildingMachineLearningSystemsWithPython数据预处理技巧：从原始数据到特征工程

BuildingMachineLearningSystemsWithPython是《Building Machine Learning Systems with Python》书籍的配套源码项目，提供了丰富的机器学习实战案例，涵盖从数据预处理到模型构建的完整流程。本文将分享该项目中实用的数据预处理技巧，帮助新手高效完成从原始数据到特征工程的转化。## 一、数据加载：原始数据的读取与转换 📊

何媚京

1041人浏览 · 2026-04-27 10:35:07

何媚京 · 2026-04-27 10:35:07 发布

BuildingMachineLearningSystemsWithPython数据预处理技巧：从原始数据到特征工程

【免费下载链接】BuildingMachineLearningSystemsWithPython Source Code for the book Building Machine Learning Systems with Python 项目地址: https://gitcode.com/gh_mirrors/bu/BuildingMachineLearningSystemsWithPython

一、数据加载：原始数据的读取与转换 📊

数据预处理的第一步是将原始数据加载到程序中。项目中ch02/load.py文件提供了通用的数据加载函数，支持从TSV格式文件中读取数据并转换为NumPy数组：

def load_dataset(dataset_name):
    data = []
    labels = []
    with open('./data/{0}.tsv'.format(dataset_name)) as ifile:
        for line in ifile:
            tokens = line.strip().split('\t')
            data.append([float(tk) for tk in tokens[:-1]])
            labels.append(tokens[-1])
    data = np.array(data)
    labels = np.array(labels)
    return data, labels

该函数实现了文本数据到数值特征的转换，为后续处理奠定基础。项目中多个章节如ch02/seeds_knn_sklearn.py均使用此方法加载种子数据集等样本数据。

图1：数据预处理流程中的原始数据加载阶段（图片来源：SimpleImageDataset/scene00.jpg）

二、数据清洗：处理缺失值与异常值 🔍

在实际数据中，缺失值和异常值是常见问题。项目通过以下方法解决：

缺失值处理：在ch02/load.py中，通过列表推导式过滤无效数据
异常值检测：使用NumPy的统计函数识别异常值，如np.mean()和np.std()
交叉验证划分：在ch02/seeds_knn_sklearn.py中使用KFold进行数据划分，避免异常值对模型评估的影响

from sklearn.cross_validation import KFold
kf = KFold(len(features), n_folds=3, shuffle=True)
for training,testing in kf:
    classifier.fit(features[training], labels[training])
    prediction = classifier.predict(features[testing])

图2：数据清洗可以有效去除噪声，提升模型效果（图片来源：SimpleImageDataset/building00.jpg）

三、特征标准化：让数据更适合模型 📏

大多数机器学习算法对特征的尺度敏感，项目中广泛使用标准化处理：

在ch02/seeds_knn_sklearn.py中，通过Pipeline将标准化与模型训练结合：

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
classifier = Pipeline([('norm', StandardScaler()), ('knn', classifier)])
crossed = cross_val_score(classifier, features, labels)

标准化处理将特征转换为均值为0、标准差为1的分布，使不同特征具有相同的尺度，这一步在KNN、SVM等距离-based算法中尤为重要。

四、特征提取：从原始数据中挖掘价值 ✨

项目提供了多种特征提取方法，适用于不同类型的数据：

文本特征提取：在ch03/noise_analysis.py中使用TfidfVectorizer将文本转换为TF-IDF特征
```
from sklearn.feature_extraction.text import TfidfVectorizer
```
图像特征提取：ch10/features.py实现了基于图像的特征提取函数
```
def compute_features(image):
    image should be a 2d numpy array (an image)
```
自定义特征工程：ch05/PosTagFreqVectorizer.py实现了基于词性标注的文本特征提取器

图3：特征工程是连接原始数据与模型的桥梁（图片来源：SimpleImageDataset/scene04.jpg）

五、实用工具与最佳实践 🛠️

项目中提供了多个实用工具模块，帮助简化数据预处理流程：

通用工具：ch02/utils.py和ch05/utils.py提供了数据处理的辅助函数
交叉验证：ch02/seeds_knn_sklearn.py展示了完整的交叉验证流程，包括混淆矩阵计算
管道化处理：使用sklearn的Pipeline将多个预处理步骤组合，提高代码复用性

# 混淆矩阵计算示例
from sklearn.metrics import confusion_matrix
cmat = confusion_matrix(labels, preds)
acc = cmat.trace()/float(cmat.sum())
print('Accuracy: {0:.1%}'.format(acc))

六、快速开始：数据预处理实战步骤 🚀

克隆项目代码库：

git clone https://gitcode.com/gh_mirrors/bu/BuildingMachineLearningSystemsWithPython

参考ch02/seeds_knn_sklearn.py实现基本数据预处理流程
根据数据类型选择合适的特征提取方法：
- 文本数据：使用ch03/noise_analysis.py中的TF-IDF方法
- 图像数据：参考ch10/features.py实现特征提取
- 数值数据：使用ch02/seeds_knn_sklearn.py中的标准化流程

通过这些步骤，你可以快速将原始数据转换为适合机器学习模型的特征表示，为后续的模型训练和评估打下坚实基础。

图4：完整的机器学习工作流，数据预处理是关键第一步（图片来源：SimpleImageDataset/scene10.jpg）

数据预处理是机器学习项目成功的关键步骤，BuildingMachineLearningSystemsWithPython项目提供了丰富的实战案例和代码示例。通过学习和应用这些技巧，你可以有效提升模型性能，解决实际问题。无论是处理结构化数据、文本还是图像，项目中的方法和工具都能帮助你高效完成特征工程，构建更强大的机器学习系统。