信息论特征选择算法实战：scikit-feature中的JMI与MRMR应用

在机器学习和数据挖掘领域，特征选择是提升模型性能的关键步骤。scikit-feature作为一款专注于特征选择的Python开源库，提供了丰富的信息论特征选择算法，其中JMI（Joint Mutual Information）和MRMR（Max-Relevance Min-Redundancy）是两种高效且广泛应用的方法。本文将带你深入了解这两种算法的原理与实战应用，帮助你快速掌握特征选择的核心技

解洲思Ronald

1059人浏览 · 2026-02-13 02:12:06

解洲思Ronald · 2026-02-13 02:12:06 发布

信息论特征选择算法实战：scikit-feature中的JMI与MRMR应用

【免费下载链接】scikit-feature open-source feature selection repository in python 项目地址: https://gitcode.com/gh_mirrors/sc/scikit-feature

一、什么是信息论特征选择？

信息论特征选择算法基于信息熵和互信息理论，通过衡量特征与目标变量之间的相关性以及特征之间的冗余性，筛选出最具代表性的特征子集。这类算法具有以下优势：

无模型依赖：不需要假设数据分布，适用于各种类型的数据
可解释性强：特征重要性基于信息增益量化，结果直观
计算高效：时间复杂度较低，适合大规模数据集

scikit-feature将信息论特征选择算法集中在skfeature/function/information_theoretical_based/目录下，包含JMI、MRMR等多种经典实现。

二、JMI算法：联合互信息最大化

2.1 JMI算法原理

JMI（Joint Mutual Information）通过最大化特征与目标变量的互信息，同时考虑已选特征之间的联合信息，有效平衡特征相关性和冗余性。其核心思想是选择与目标变量互信息大，且与已选特征联合互信息也大的特征。

2.2 JMI算法实现

在scikit-feature中，JMI算法的实现位于skfeature/function/information_theoretical_based/JMI.py文件，核心函数定义如下：

def jmi(X, y, **kwargs):
    """
    This function implements the JMI feature selection
    
    Input
    -----
    X: {numpy array}, shape (n_samples, n_features)
        input data, guaranteed to be discrete
    y: {numpy array}, shape (n_samples,)
        input class labels
    kwargs: {dictionary}
        n_selected_features: {int}
            number of features to select
            
    Output
    ------
    F: {numpy array}, shape (n_features,)
        index of selected features, F[0] is the most important feature
    """

2.3 JMI算法实战示例

scikit-feature提供了完整的JMI使用示例，位于skfeature/example/test_JMI.py文件中，核心代码片段如下：

from skfeature.function.information_theoretical_based import JMI
# 特征选择
idx,_,_ = JMI.jmi(X[train], y[train], n_selected_features=num_fea)
# 获取选择的特征
X_selected = X[:, idx[0:num_fea]]

三、MRMR算法：最大相关最小冗余

3.1 MRMR算法原理

MRMR（Max-Relevance Min-Redundancy）算法通过最大化特征与目标变量的相关性，同时最小化特征之间的冗余性来选择特征。其目标函数为：

max (I(f;y) - mean(I(f;f')))

其中I表示互信息，f是候选特征，y是目标变量，f'是已选特征集合。

3.2 MRMR算法实现

MRMR算法的实现在skfeature/function/information_theoretical_based/MRMR.py文件中，核心函数定义如下：

def mrmr(X, y, **kwargs):
    """
    This function implements the MRMR feature selection
    
    Input
    -----
    X: {numpy array}, shape (n_samples, n_features)
        input data, guaranteed to be discrete
    y: {numpy array}, shape (n_samples,)
        input class labels
    kwargs: {dictionary}
        n_selected_features: {int}
            number of features to select
    """

3.3 MRMR算法实战示例

MRMR的使用示例可以参考skfeature/example/test_MRMR.py文件：

from skfeature.function.information_theoretical_based import MRMR
# 特征选择
idx,_,_ = MRMR.mrmr(X[train], y[train], n_selected_features=num_fea)
# 获取选择的特征
X_selected = X[:, idx[0:num_fea]]

四、JMI与MRMR算法对比与选择

4.1 算法特点对比

算法	核心思想	优势	适用场景
JMI	最大化联合互信息	考虑特征间高阶关系	特征间存在交互作用的数据
MRMR	最大相关最小冗余	计算简单高效	高维小样本数据

4.2 性能对比

在scikit-feature提供的标准数据集上测试，两种算法各有优势：

在文本分类任务中，JMI通常表现更好
在基因数据等高维生物学数据上，MRMR计算效率更高
当特征间存在较强相关性时，JMI能更好地捕捉特征交互

五、快速上手scikit-feature

5.1 安装方法

git clone https://gitcode.com/gh_mirrors/sc/scikit-feature
cd scikit-feature
python setup.py install

5.2 数据准备

scikit-feature内置了多个标准数据集，位于skfeature/data/目录，包括：

图像数据：COIL20.mat、ORL.mat、Yale.mat等
生物数据：leukemia.mat、lung.mat、prostate-GE.mat等
文本数据：arcene.mat、gisette.mat等

5.3 完整使用流程

# 1. 加载数据
from skfeature.data import load_data
X, y = load_data("COIL20")

# 2. 划分训练测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# 3. 特征选择
from skfeature.function.information_theoretical_based import JMI, MRMR
# 使用JMI选择特征
idx_jmi = JMI.jmi(X_train, y_train, n_selected_features=50)[0]
# 使用MRMR选择特征
idx_mrmr = MRMR.mrmr(X_train, y_train, n_selected_features=50)[0]

# 4. 特征子集提取
X_jmi = X_test[:, idx_jmi]
X_mrmr = X_test[:, idx_mrmr]

# 5. 模型评估
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

model = KNeighborsClassifier()
model.fit(X_train[:, idx_jmi], y_train)
print("JMI特征选择准确率:", accuracy_score(y_test, model.predict(X_jmi)))