【论文阅读】Towards multi-fusion graph neural network for single-cell RNA sequence clustering

本文提出了一种新的单细胞RNA测序（scRNA-seq）聚类方法——单细胞多融合图神经网络（scMFGNN），以解决现有方法在处理scRNA-seq数据时的两个主要局限：一是未能充分考虑节点属性与拓扑信息在可靠性上的差异，二是缺乏融合多尺度判别信息的能力。scMFGNN通过引入多融合图神经网络（MFGNN）和零膨胀负二项分布（ZINB）模块，动态融合多尺度表示，并自适应地整合节点表示与拓扑结构信息

dundunmm

1395人浏览 · 2025-05-16 20:48:19

dundunmm · 2025-05-16 20:48:19 发布

代码地址： https://github.com/youngcmm/scMFGNN

摘要

聚类分析在单细胞RNA测序（scRNA-seq）数据分析中发挥着至关重要的作用，其中基于图神经网络（GNN）的聚类方法近年来迅速成为一项颇具前景的技术。尽管已有显著进展，现有的scRNA-seq聚类方法仍存在两个关键局限：

首先，它们大多将节点属性与细胞-细胞之间的拓扑信息视为同等重要，却忽视了二者在可靠性上的（可能存在的）差异；
其次，它们通常仅使用最后一层网络中学习到的表示，缺乏融合来自不同层次的多尺度判别信息的能力。

为了解决上述问题，本文提出了一种面向scRNA-seq聚类的新方法——单细胞多融合图神经网络（scMFGNN）。
具体而言，本文引入了多融合图神经网络（MFGNN），用于在保留多尺度网络结构信息的同时，学习具有判别力的数据表示。
为应对scRNA-seq数据中常见的高离散性、高异质性与高维特性，网络结构中还融合了零膨胀负二项分布（ZINB）模块。
此外，通过约束节点表示与图拓扑信息之间的一致性，引导模型进行联合学习。

值得注意的是，scMFGNN不仅可以动态融合来自多个层的多尺度表示，同时还能够自适应地融合同一层中节点表示与拓扑结构信息，从而提升表示学习与聚类性能。

在多个scRNA-seq数据集上的实验结果表明，scMFGNN在性能上优于当前主流方法。

引言

单细胞RNA测序（scRNA-seq）技术具备揭示细胞群体间异质性和变异性的能力，使得研究人员能够应对复杂的生物学问题。作为一种重要的无监督学习技术，聚类分析已被证明是处理和可视化scRNA-seq数据的关键方法。

早期的scRNA-seq聚类研究主要依赖传统的降维技术，如主成分分析（PCA）、t分布随机邻居嵌入（t-SNE）以及统一流形近似与投影（UMAP），随后再采用k均值聚类或层次聚类方法。然而，由于测序技术的限制和基因组覆盖率的高变异性，scRNA-seq数据通常表现出过度离散性、相对稀疏性，且包含大量零值（dropout事件），这对传统聚类方法构成了严峻挑战。

为了解决上述问题，研究者们提出了一些改进方法。例如，CIDR算法通过隐式插补的方式减少dropout对聚类性能的影响。尽管取得了一定进展，这些传统方法仍然难以自适应地学习scRNA-seq数据中的判别性特征表示，可能导致聚类结果次优甚至具有误导性。

近年来，深度学习因其在复杂数据表征学习中的强大能力而备受关注，并为scRNA-seq聚类研究提供了有效的工具。例如，Eraslan等人提出了深度计数自编码器网络（DCA），结合零膨胀负二项分布（ZINB）模型，针对scRNA-seq数据的计数特性、过度离散性和稀疏性进行建模，从而提升了数据的分析能力。Tian等人进一步提出scDeepCluster方法，在学习自编码器特征表示的同时实现细胞样本的聚类。这些方法普遍结合ZINB模型与深度神经网络，以刻画scRNA-seq数据的非线性特征，但往往忽视了细胞间的拓扑结构信息（即细胞对之间的关系）。

近年来，图神经网络（GNN）因其能够自然地捕捉图的拓扑结构（通过邻居信息的聚合）而日益受到关注。例如，Gan等人提出了scDSC方法，将结构信息整合进scRNA-seq数据的深度聚类中；Yu等人则在scTAG模型中引入了KL散度损失与ZINB模型，通过图卷积自编码结构对拓扑信息进行建模。

尽管取得进展，这些基于GNN的方法仍存在两个主要问题：一是它们通常假设节点属性和细胞间拓扑信息在同一层中具有同等重要性，忽略了它们在融合表示时的可靠性差异；二是它们往往仅利用最后一层的表示，忽略了多层中蕴含的多尺度判别信息。

为解决上述问题，本文提出了一种面向scRNA-seq聚类的单细胞多融合图神经网络（scMFGNN）。具体来说，scMFGNN采用多融合图神经网络（MFGNN）结构，在保留多尺度网络层中学习到的结构特征的同时，提取具有判别力的基因表达表示。MFGNN中，同一层的节点属性与拓扑结构信息通过注意力机制自适应融合，从而捕捉二者在可靠性上的潜在差异；不同网络层中提取的多尺度表示则通过动态融合用于联合优化。

特别地，scMFGNN采用基于ZINB的自编码器将细胞表示映射至低维潜空间，并通过最小化KL散度优化整个网络，最终实现高质量聚类。作者在九个真实scRNA-seq数据集上进行了实验，结果表明，scMFGNN在聚类性能上显著优于现有主流方法。

本文的主要贡献可归纳如下：