【scikit-learn】sklearn.pipeline 模块：将多个机器学习步骤组织成一个工作流

sklearn.pipeline 模块提供了一种将多个机器学习步骤组织成一个工作流的方法，使得整个机器学习过程更加简洁、可复用、可维护。通过 Pipeline 和 FeatureUnion等类，用户可以将数据预处理、特征工程、模型训练等步骤结合在一起，避免了中间变量的管理和重复代码。sklearn.pipeline 提供了灵活的工作流管理，能够将多个机器学习步骤如数据预处理、特征提取、模型训练等

正义的彬彬侠

1388人浏览 · 2025-03-22 10:47:58

正义的彬彬侠 · 2025-03-22 10:47:58 发布

`sklearn.pipeline` 模块

sklearn.pipeline 模块提供了一种 将多个机器学习步骤组织成一个工作流 的方法，使得整个机器学习过程更加简洁、可复用、可维护。通过 Pipeline 和 FeatureUnion 等类，用户可以将数据预处理、特征工程、模型训练等步骤结合在一起，避免了中间变量的管理和重复代码。

1. `Pipeline` 类

Pipeline 是 sklearn.pipeline 中最常用的类之一，它可以将多个步骤（例如数据预处理、特征转换、模型训练）顺序串联成一个整体。

(1) `Pipeline` 的作用

简化代码：将多个步骤组合成一个步骤链，减少重复代码。
简化模型评估和交叉验证：使用 Pipeline 可以直接与交叉验证结合，避免了手动分割训练和测试集的操作。
便于参数调优：可以通过 GridSearchCV 或 RandomizedSearchCV 对整个工作流进行超参数搜索。

2. `Pipeline` 代码示例

(1) 创建一个简单的 `Pipeline`

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

# 创建 Pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # 数据标准化
    ('classifier', LogisticRegression())  # 分类模型
])

# 训练 Pipeline
X = [[1, 2], [3, 4], [5, 6]]  # 示例特征数据
y = [0, 1, 0]  # 示例标签数据
pipeline.fit(X, y)

# 预测
predictions = pipeline.predict([[2, 3], [4, 5]])
print("预测结果:", predictions)

解释

Pipeline 将 StandardScaler 和 LogisticRegression 组合在一起。
pipeline.fit()：将数据通过整个流程（标准化、训练）进行训练。
pipeline.predict()：通过训练好的模型进行预测。

3. `Pipeline` 主要参数

Pipeline(steps, memory=None)

参数	说明
`steps`	包含模型的步骤（`List[Tuple[str, object]]`）。每个步骤是一个元组，其中第一个元素是步骤名称，第二个元素是执行该步骤的操作。
`memory`	缓存（可选），用于保存步骤的中间结果以便重用，提高计算效率。

4. 使用 `Pipeline` 进行超参数调优

Pipeline 可以与 网格搜索（GridSearchCV） 或 随机搜索（RandomizedSearchCV） 配合使用，进行超参数调优。

from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

# 创建 Pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('svc', SVC())
])

# 网格搜索的参数
param_grid = {
    'svc__C': [0.1, 1, 10],  # 对 SVC 的 C 参数进行搜索
    'svc__kernel': ['linear', 'rbf']  # 对核函数进行搜索
}

# 使用 GridSearchCV 进行超参数调优
grid_search = GridSearchCV(pipeline, param_grid, cv=5)
grid_search.fit(X, y)

print("最佳参数:", grid_search.best_params_)

解释

svc__C 和 svc__kernel：GridSearchCV 对 Pipeline 中步骤的超参数进行搜索时，使用 step__param 的格式。
best_params_：输出最佳的超参数组合。

5. 使用 `Pipeline` 进行交叉验证

使用 Pipeline 可以简化交叉验证过程，因为它保证了所有的预处理步骤与模型训练一起进行。

from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

# 创建 Pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', LogisticRegression())
])

# 使用交叉验证评估模型
scores = cross_val_score(pipeline, X, y, cv=5)
print("交叉验证得分:", scores)

解释

cross_val_score()：通过 Pipeline 执行 交叉验证，确保每个折叠都使用相同的预处理和模型。

6. `FeatureUnion` 类

FeatureUnion 是另一个重要的工具，它允许将多个特征提取器结合在一起，形成一个整体的特征转换步骤。

(1) 使用 `FeatureUnion`

from sklearn.pipeline import FeatureUnion
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 创建特征联合
combined_features = FeatureUnion([
    ('pca', PCA(n_components=1)),  # 使用 PCA 降维
    ('scaler', StandardScaler())   # 使用标准化
])

# 使用联合特征提取
X_transformed = combined_features.fit_transform(X)

解释

FeatureUnion 可以将 多个特征转换步骤（如 PCA 和 StandardScaler）联合起来，同时执行。

7. `Pipeline` 和 `FeatureUnion` 结合使用

可以将 Pipeline 与 FeatureUnion 结合使用，构建更加复杂的工作流。

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.decomposition import TruncatedSVD

# 创建一个包含 FeatureUnion 和 Pipeline 的复杂模型
pipeline = Pipeline([
    ('features', FeatureUnion([
        ('pca', PCA(n_components=1)),
        ('svd', TruncatedSVD(n_components=2))
    ])),
    ('scaler', StandardScaler()),  # 数据标准化
])

# 对数据进行训练
pipeline.fit(X)

解释

FeatureUnion 用于组合多个特征提取步骤，Pipeline 负责将特征提取与后续的标准化步骤连接起来。

8. 适用场景

数据预处理与模型训练流程整合：通过 Pipeline 将预处理、特征工程、模型训练等步骤合并为一个完整的工作流。
超参数调优：通过 GridSearchCV 或 RandomizedSearchCV 对整个工作流进行超参数调优。
数据清洗与建模：将数据清洗步骤与建模步骤一体化，便于批量处理和重复执行。

9. 结论

sklearn.pipeline 提供了 灵活的工作流管理，能够将多个机器学习步骤如 数据预处理、特征提取、模型训练 等整合为一个统一的流程。使用 Pipeline 和 FeatureUnion，可以简化代码、减少错误，并便于模型的调优和评估。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

突破 Transformer 极限：一文看懂类脑架构 MT-LNN 最新的“超神”评测结果！

脑启社区

人工智能导论：模型与算法（未来发展与趋势）

人工智能作为引领新一轮科技革命和产业变革的战略性技术，正在深刻改变人类社会。本章从类脑计算、自动化机器学习、神经网络压缩、人工智能芯片、量子机器学习、人工智能伦理与治理、人工智能算法开发框架等方面，简要总结人工智能的未来发展方向和趋势。

脑启社区

CNSH通用翻译引擎 | 全语言互译+AI鉴定+来源追溯

《CNSH通用翻译引擎v1.0》摘要：该神经网络式翻译系统采用类脑架构设计，核心包含智能路由中枢（决策前额叶）和模块神经网络。具备多语言互译、AI伪代码识别、代码溯源三大功能，支持动态路径调整和双向反馈学习。系统通过特征感知、智能路由、并行处理实现高效翻译，并采用DNA追溯和三色审计确保可靠性。相比传统流水线架构，新设计具有神经网络的自适应优势，各模块可互相激活协作，实现更接近人类思维的翻译过程。