【机器学习】Tensorflow：tSNE数据非线性降维

深度学习巨头之一的Hinton大神在数据降维领域有一篇经典论文Visualizing Data using t-SNE。该方法是流形（非线性）数据降维的经典，从发表至今鲜有新的降维方法能全面超越。该方法缺点是计算复杂度大，一般推荐先线性降维然后再用tSNE降维。python sklearn有相应的实现。我现在用Tensorflow实现这个算法。

artzers

17021人浏览 · 2017-03-01 00:57:37

artzers · 2017-03-01 00:57:37 发布

深度学习巨头之一的Hinton大神在数据降维领域有一篇经典论文Visualizing Data using t-SNE。该方法是流形（非线性）数据降维的经典，从发表至今鲜有新的降维方法能全面超越。该方法相比PCA等线性方法能有效将数据投影到低维空间并保持严格的分割界面；缺点是计算复杂度大，一般推荐先线性降维然后再用tSNE降维。python sklearn有相应的实现。我现在用Tensorflow实现这个算法。
tSNE的核心思想是：把高维数据看做高维空间中的点 xi <script type="math/tex" id="MathJax-Element-1">x_i</script>，然后用流形方法将其映射到低维空间中的 yi <script type="math/tex" id="MathJax-Element-2">y_i</script>，要求保持其空间距离。即高维空间相距较近/远的点，映射到低维空间中仍然较近/远。为了让挨得近的点靠的更近，距离用高斯函数来度量：

D i j = e - | x i - x j | 2 2 σ 2 / \sum i, j e - | x i - x j | 2 2 σ 2

p i j = p j i = D i j + D j i 2

q i j = ( 1 + | y i - y j | 2 ) - 1 \sum i , j ( 1 + | y i - y j | 2 ) - 1

l o s s = \sum p i j log p i j q i j

yi <script type="math/tex" id="MathJax-Element-7">y_i</script>。这就是tSNE。求解这个损失函数，可以用梯度下降法，对损失函数求导，原文用了相当长的篇幅来解出求导公式：

\partial l o s s \partial y i = 4 \sum j (p i j - q i j) (1 + | y i - y j | 2) - 1 (y i - y j)

pij <script type="math/tex" id="MathJax-Element-9">p_{ij}</script>可以预先用numpy求出来，因为它与优化过程无关。
一般来说直接用tensorflow构建loss函数即可，然而tensorflow求解两两之间的距离是个问题。tensorflow不支持单独操作tensor的某个元素（也许未来会支持?），因此没有办法提取每个样本来循环求解所有的距离。这里就需要一个矩阵技巧。
我知道

|xi−xj|2=x2i−2xixj+x2j <script type="math/tex" id="MathJax-Element-10">|x_i-x_j|^2=x_i^2-2x_ix_j+x_j^2</script>，我要构建的距离矩阵是[150,150]的对称矩阵pairD，样本矩阵是[150,4]的矩阵X，由上述公式知道

p a i r D = s u m (X * X, a x i s = 1) - 2 X T X + s u m (X T * X T, a x i s = 1)

pij,i=j=0 <script type="math/tex" id="MathJax-Element-12">p_{ij,i=j}=0</script>，为了方便计算没有排除这个元素，导致出现log函数自变量为0的情况，于是无法求解。为了解决这个问题，我强制

pij=max(pij,0.000001) <script type="math/tex" id="MathJax-Element-13">p_{ij}=max(p_{ij},0.000001)</script>，当然也可以设置其他比较小的值。这也是频域逆滤波的常用方法。
然后就是构建tensorflow的损失函数了：

with tf.device('/cpu:0'):
    X = tf.placeholder('float',(150,150))
    initial = tf.random_normal([150,2]) * 0.0001#映射到二维空间
    Y = tf.Variable(initial)
    A = tf.reduce_sum(Y*Y, axis=1)
    A = tf.reshape(r, [-1, 1])
    #pair wise distance
    pairD = A - 2*tf.matmul(Y, tf.transpose(Y)) + tf.transpose(A) + 1.
    qij = 1./pairD
    sumq = tf.reduce_sum(qij,axis=1)
    qij /= sumq
    loss = tf.reduce_sum( X*tf.log(X / qij) )
    global_step = tf.Variable(0, name = 'global_step',trainable=False)
    starter_learning_rate = 0.1
    learning_rate = tf.train.exponential_decay(starter_learning_rate, global_step,20, 0.95, staircase=True)
    train_op = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(loss=loss,global_step = global_step)

直接使用原始数据绘图第0、1维：
这里写图片描述
求解之后，绘制图像得到

经过tSNE降维映射，不同的数据在低维空间中依然能够被分开。整个最优化过程空间复杂度较高；此外不同的参数会导致最终的降维图不一样，但是降维图中的3类数据全部都被分隔开了。这个降维方法用于可视化居多。全程由Tensorflow自动最优化得到，如果使用GPU的话更加快，tSNE计算慢的问题可以解决了，空间复杂度有点头疼。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

类脑解耦大模型最简 MVP 落地｜从根源解决 LLM 臃肿、黑箱、失忆、幻觉四大问题（大模型的思考：四）

本次最简 MVP 的成功跑通，是模块化类脑大模型架构的里程碑式验证。证明了下一代 AI 的发展方向，不再是无休止的参数堆叠，而是智能的解耦、分工、重构。从最初类脑思想实验，到自我纠偏完善理论，再到低成本工程落地，整套体系逻辑自洽、拓展性极强。丰富颜色、形状、材质多类型特征子模块；接入数学运算独立子模块，解决大模型计算错误问题；迭代存储层，从 JSON 平滑升级轻量化数据库；完善联想、想象拓展模块，

脑启社区

告别Transformer？我们为什么必须推翻冯·诺依曼架构

《AI架构革命：从Transformer到光电忆阻器》传统Transformer架构面临算力困境，其O(n²)计算复杂度和冯·诺依曼架构的"存储墙"严重制约发展。新一代技术正加速突破：1）忆阻器实现存算一体，北京大学团队验证能效提升96倍；2）光电融合技术利用光信号突破电子速度极限；3）Mamba架构抛弃注意力机制，推理速度提升5倍；4）数据流芯片（如英伟达收购的Groq）实

脑启社区

一个大专生的自白：我为什么用「类脑架构」重写了分布式系统

BNOS 负责宏观的节点编排与协作，AAA 负责微观的模型自适应推理，两者在设计上是互补的。在查阅了大量现有的分布式框架和智能体（Agent）协作方案后，我发现它们要么过于厚重，要么在节点通信上引入了极高的复杂度。于是，我决定跳出传统的微服务或消息队列思维，尝试从生物大脑中汲取灵感，设计了一套基于仿生神经网络的通用模块化执行引擎——BNOS（Bionic Neural Network Operat