Python打卡 DAY 21 常见的降维算法

要求n_features > n_classes。附：各算法在Scikit-learn中的关键参数。尝试用t-SNE输出作为模型输入特征。：比t-SNE更快且更好保持全局结构。：最大化类间距离，最小化类内距离。X = UΣVᵀ （奇异值分解）仅适合可视化（不适合特征预处理）：特别适合单细胞RNA序列数据。：深度学习方法处理复杂非线性。稀疏PCA（增强可解释性）S_b = 类间散度矩阵。S_w =

沐兮兮兮

1021人浏览 · 2025-06-04 07:00:00

沐兮兮兮 · 2025-06-04 07:00:00 发布

一、核心算法对比速查表

算法	类型	监督性	保持结构	适合维度	输出可解释性	计算复杂度
LDA	线性	有监督	类间分离	低-中维	高	O(n³)
PCA	线性	无监督	全局方差	高维	中	O(n³)
t-SNE	非线性	无监督	局部相似	超高清	低	O(n²)

二、算法详解

1. LDA（线性判别分析）

核心思想：最大化类间距离，最小化类内距离

数学目标：

argmax_W (Wᵀ S_b W) / (Wᵀ S_w W)

其中：
S_b = 类间散度矩阵
S_w = 类内散度矩阵

实现步骤：

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
lda = LinearDiscriminantAnalysis(n_components=2)
X_lda = lda.fit_transform(X, y)  # 需要标签y

典型应用场景：

人脸识别前的特征压缩
分类任务的特征预处理

2. PCA（主成分分析）

核心思想：寻找方差最大的正交方向

关键公式：

X = UΣVᵀ （奇异值分解）
主成分 = XV

特征选择：

# 累积方差解释率计算
pca = PCA().fit(X)
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('主成分数量')
plt.ylabel('累积解释方差')

优化变种：

增量PCA（大数据集）
稀疏PCA（增强可解释性）
核PCA（非线性扩展）

3. t-SNE（t分布随机邻域嵌入）

核心优势：完美保持局部结构

参数调优：

from sklearn.manifold import TSNE
tsne = TSNE(
    n_components=2,
    perplexity=30,  # 建议5-50
    early_exaggeration=12,
    learning_rate='auto'
)
X_tsne = tsne.fit_transform(X)

注意事项：

仅适合可视化（不适合特征预处理）
不同运行结果可能不一致
对超参数敏感

三、实战对比案例

MNIST数据集降维效果

import matplotlib.pyplot as plt

methods = {
    'PCA': PCA(n_components=2),
    'LDA': LinearDiscriminantAnalysis(n_components=2),
    't-SNE': TSNE(n_components=2)
}

fig, axes = plt.subplots(1, 3, figsize=(18, 5))
for (name, model), ax in zip(methods.items(), axes):
    X_reduced = model.fit_transform(X, y) if name=='LDA' else model.fit_transform(X)
    ax.scatter(X_reduced[:,0], X_reduced[:,1], c=y, cmap='tab10', s=5)
    ax.set_title(name)

四、算法选择决策树

五、常见误区

LDA陷阱：
- 要求n_features > n_classes
- 对非高斯分布数据效果差
PCA误用：
- 未标准化数据导致方差主导错误
- 用训练集统计量处理测试集
t-SNE滥用：
- 尝试用t-SNE输出作为模型输入特征
- 忽视perplexity参数调整

六、进阶方向

UMAP：比t-SNE更快且更好保持全局结构
Autoencoder：深度学习方法处理复杂非线性
PHATE：特别适合单细胞RNA序列数据

附：各算法在Scikit-learn中的关键参数

# PCA
PCA(n_components=None, whiten=False, svd_solver='auto')

# LDA
LinearDiscriminantAnalysis(n_components=None, solver='svd')

# t-SNE
TSNE(n_components=2, perplexity=30.0, early_exaggeration=12.0)

@浙大疏锦行

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

突破 Transformer 极限：一文看懂类脑架构 MT-LNN 最新的“超神”评测结果！

脑启社区

人工智能导论：模型与算法（未来发展与趋势）

人工智能作为引领新一轮科技革命和产业变革的战略性技术，正在深刻改变人类社会。本章从类脑计算、自动化机器学习、神经网络压缩、人工智能芯片、量子机器学习、人工智能伦理与治理、人工智能算法开发框架等方面，简要总结人工智能的未来发展方向和趋势。

脑启社区

CNSH通用翻译引擎 | 全语言互译+AI鉴定+来源追溯

《CNSH通用翻译引擎v1.0》摘要：该神经网络式翻译系统采用类脑架构设计，核心包含智能路由中枢（决策前额叶）和模块神经网络。具备多语言互译、AI伪代码识别、代码溯源三大功能，支持动态路径调整和双向反馈学习。系统通过特征感知、智能路由、并行处理实现高效翻译，并采用DNA追溯和三色审计确保可靠性。相比传统流水线架构，新设计具有神经网络的自适应优势，各模块可互相激活协作，实现更接近人类思维的翻译过程。