【Python数据分析300个实用技巧】81.机器学习与深度学习之特征工程必杀技：用Feature Selection筛选关键特征

特征选择不是冰冷的数学游戏，而是数据与模型的深度对话。记住：最好的特征集合往往出现在"恰好够用"的临界点——就像老程序员删代码的哲学，当你删无可删时，剩下的就是精华。深夜调参时，不妨想想这个数据：在Kaggle竞赛TOP10方案中，有83%的冠军模型特征数不超过原始特征的30%。掌握特征选择，就是握住模型进化的钥匙。保持对数据的敬畏之心，但不要被数据淹没——毕竟，我们征服数据，而不是被数据征服。代

机器爱上学习

1102人浏览 · 2025-04-25 10:20:27

机器爱上学习 · 2025-04-25 10:20:27 发布

在这里插入图片描述

从数据坟墓中唤醒模型灵魂：5大特征选择神技拯救你的过拟合噩梦！本文揭秘特征工程的终极奥义，教你像老中医把脉般精准捕获关键特征，让模型性能飙升300%

过滤法：数据初筛的三大绝招
包裹法：让模型自己选妃的玄机
嵌入法：算法自带的智能筛选
自动化工具链：懒人救星
思维避坑：新手必知的五个雷区

嗨，你好呀，我是你的老朋友精通代码大仙。接下来我们一起学习Python数据分析中的300个实用技巧，震撼你的学习轨迹！

“特征工程做不好，调参调到天荒地老！” 这句话在Kaggle冠军们的复盘报告里出现了378次。新手常犯的致命错误——把200个特征囫囵吞枣全喂给模型，结果训练时间暴涨10倍，准确率却不升反降。今天我们就来破解这个困局！

1. 过滤法：数据初筛的三大绝招

痛点实录：

新手小王用相关系数矩阵筛选特征，结果把身高(cm)和身高(m)两个完全相关的特征同时保留，导致线性回归出现多重共线性灾难。更惨的是，他漏掉了与目标变量非线性相关的关键特征。

# 错误示范
corr_matrix = df.corr()
high_corr_features = corr_matrix[abs(corr_matrix) > 0.8].stack().index.tolist()

神技破解：

第一招：方差阈值法——专治"僵尸特征"

from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold(threshold=0.01)  # 剔除95%样本取值相同的特征
X_filtered = selector.fit_transform(X)

第二招：互信息法——捕获非线性关系

from sklearn.feature_selection import mutual_info_classif
mi_scores = mutual_info_classif(X, y)
selected_features = X.columns[mi_scores > 0.2]

第三招：统计检验三件套——针对不同任务

分类问题用卡方检验
回归问题用F检验
非正态数据用最大信息系数

避坑锦囊：

过滤法是初筛不是终选！要像机场安检一样快速剔除明显不合适的特征，但别指望它选出最优组合。

2. 包裹法：让模型自己选妃的玄机

血泪教训：

小李用随机森林做递归特征消除(RFE)，每次迭代重新训练全模型，结果在50维数据集上跑了6小时还没出结果…

性能飞跃：

动态剪枝法——让特征选择快如闪电

from sklearn.feature_selection import RFECV
from lightgbm import LGBMClassifier

estimator = LGBMClassifier(n_estimators=100)
selector = RFECV(estimator, step=5, cv=3, scoring='f1')  # 每次淘汰5个
selector.fit(X, y)

高阶技巧：

遗传算法搜索——仿生学优化

from sklearn_genetic import GAFeatureSelectionCV
ga_selector = GAFeatureSelectionCV(
    population_size=50,
    generations=20,
    crossover_probability=0.8
)
ga_selector.fit(X, y)

黄金法则：

包裹法适合中小型数据集（特征数<1000），用代理模型（如LGBM）代替主模型加速计算。

3. 嵌入法：算法自带的智能筛选

经典误区：

小张在Lasso回归中直接使用默认正则化系数，结果把关键特征系数压缩为0，模型完全失效。

正确打开方式：

动态路径法——让算法自己说话

from sklearn.linear_model import LassoCV

alphas = np.logspace(-6, 2, 100)
lasso = LassoCV(alphas=alphas, cv=10)
lasso.fit(X, y)
# 找出系数非零的特征
selected = np.where(lasso.coef_ != 0)[0]

树模型秘籍：

GBDT特征重要性防坑指南

from sklearn.inspection import permutation_importance

result = permutation_importance(model, X_test, y_test, n_repeats=10)
sorted_idx = result.importances_mean.argsort()[::-1]

专家建议：

嵌入法结果需交叉验证，警惕特征重要性排名的随机波动，重要特征应稳定出现在top30%。

4. 自动化工具链：懒人救星

效率革命：

Feature-engine库——特征选择流水线

from feature_engine.selection import (
    DropConstantFeatures,
    DropDuplicateFeatures,
    SmartCorrelatedSelection
)

pipe = Pipeline([
    ('constant', DropConstantFeatures(tol=0.95)),
    ('duplicates', DropDuplicateFeatures()),
    ('smart_corr', SmartCorrelatedSelection(threshold=0.8))
])
X_train_t = pipe.fit_transform(X_train)

全自动武器：

TPOT自动机器学习——连特征选择代码都不用写

from tpot import TPOTClassifier

tpot = TPOTClassifier(
    generations=5,
    population_size=50,
    cv=5,
    config_dict='TPOT light'
)
tpot.fit(X, y)