代码地址: https://github.com/youngcmm/scMFGNN


摘要

聚类分析在单细胞RNA测序(scRNA-seq)数据分析中发挥着至关重要的作用,其中基于图神经网络(GNN)的聚类方法近年来迅速成为一项颇具前景的技术。尽管已有显著进展,现有的scRNA-seq聚类方法仍存在两个关键局限:

首先,它们大多将节点属性与细胞-细胞之间的拓扑信息视为同等重要,却忽视了二者在可靠性上的(可能存在的)差异;
其次,它们通常仅使用最后一层网络中学习到的表示,缺乏融合来自不同层次的多尺度判别信息的能力。

为了解决上述问题,本文提出了一种面向scRNA-seq聚类的新方法——单细胞多融合图神经网络(scMFGNN)
具体而言,本文引入了多融合图神经网络(MFGNN),用于在保留多尺度网络结构信息的同时,学习具有判别力的数据表示。
为应对scRNA-seq数据中常见的高离散性、高异质性与高维特性,网络结构中还融合了零膨胀负二项分布(ZINB)模块
此外,通过约束节点表示与图拓扑信息之间的一致性,引导模型进行联合学习。

值得注意的是,scMFGNN不仅可以动态融合来自多个层的多尺度表示,同时还能够自适应地融合同一层中节点表示与拓扑结构信息,从而提升表示学习与聚类性能

在多个scRNA-seq数据集上的实验结果表明,scMFGNN在性能上优于当前主流方法。

引言

单细胞RNA测序(scRNA-seq)技术具备揭示细胞群体间异质性和变异性的能力,使得研究人员能够应对复杂的生物学问题。作为一种重要的无监督学习技术,聚类分析已被证明是处理和可视化scRNA-seq数据的关键方法。

早期的scRNA-seq聚类研究主要依赖传统的降维技术,如主成分分析(PCA)、t分布随机邻居嵌入(t-SNE)以及统一流形近似与投影(UMAP),随后再采用k均值聚类或层次聚类方法。然而,由于测序技术的限制和基因组覆盖率的高变异性,scRNA-seq数据通常表现出过度离散性、相对稀疏性,且包含大量零值(dropout事件),这对传统聚类方法构成了严峻挑战。

为了解决上述问题,研究者们提出了一些改进方法。例如,CIDR算法通过隐式插补的方式减少dropout对聚类性能的影响。尽管取得了一定进展,这些传统方法仍然难以自适应地学习scRNA-seq数据中的判别性特征表示,可能导致聚类结果次优甚至具有误导性。

近年来,深度学习因其在复杂数据表征学习中的强大能力而备受关注,并为scRNA-seq聚类研究提供了有效的工具。例如,Eraslan等人提出了深度计数自编码器网络(DCA),结合零膨胀负二项分布(ZINB)模型,针对scRNA-seq数据的计数特性、过度离散性和稀疏性进行建模,从而提升了数据的分析能力。Tian等人进一步提出scDeepCluster方法,在学习自编码器特征表示的同时实现细胞样本的聚类。这些方法普遍结合ZINB模型与深度神经网络,以刻画scRNA-seq数据的非线性特征,但往往忽视了细胞间的拓扑结构信息(即细胞对之间的关系)。

近年来,图神经网络(GNN)因其能够自然地捕捉图的拓扑结构(通过邻居信息的聚合)而日益受到关注。例如,Gan等人提出了scDSC方法,将结构信息整合进scRNA-seq数据的深度聚类中;Yu等人则在scTAG模型中引入了KL散度损失与ZINB模型,通过图卷积自编码结构对拓扑信息进行建模。

尽管取得进展,这些基于GNN的方法仍存在两个主要问题:一是它们通常假设节点属性和细胞间拓扑信息在同一层中具有同等重要性,忽略了它们在融合表示时的可靠性差异;二是它们往往仅利用最后一层的表示,忽略了多层中蕴含的多尺度判别信息。

为解决上述问题,本文提出了一种面向scRNA-seq聚类的单细胞多融合图神经网络(scMFGNN)。具体来说,scMFGNN采用多融合图神经网络(MFGNN)结构,在保留多尺度网络层中学习到的结构特征的同时,提取具有判别力的基因表达表示。MFGNN中,同一层的节点属性与拓扑结构信息通过注意力机制自适应融合,从而捕捉二者在可靠性上的潜在差异;不同网络层中提取的多尺度表示则通过动态融合用于联合优化。

特别地,scMFGNN采用基于ZINB的自编码器将细胞表示映射至低维潜空间,并通过最小化KL散度优化整个网络,最终实现高质量聚类。作者在九个真实scRNA-seq数据集上进行了实验,结果表明,scMFGNN在聚类性能上显著优于现有主流方法。

本文的主要贡献可归纳如下:

  1. 首次从理论与实验角度验证:融合多个网络层学习到的特征能够显著提升对高维scRNA-seq数据的深度聚类性能;

  2. 引入注意力机制,实现每一层中节点属性与拓扑结构信息的自适应融合,从而增强聚类效果;

  3. 构建了一个新型的单细胞聚类模型scMFGNN,融合深度图嵌入与ZINB建模,在多个scRNA-seq数据集上展现出优越性能。

方法

提出了一种用于scRNA-seq数据的图神经网络模型,称为scMFGNN(如图1所示),其目标是从多个网络层中学习细胞和基因的低维有效表示,从而提升scRNA-seq数据的细胞聚类性能。

具体而言,scMFGNN模型主要由以下三个关键模块组成:

  1. 多融合图神经网络(MFGNN):用于学习scRNA-seq数据的低维图结构表示;

  2. 基于ZINB的自编码器:旨在保持细胞在低维潜在空间中的表示分布;

  3. 互监督模块:用于以自监督方式联合优化MFGNN与ZINB自编码器。

首先,从scRNA-seq数据中构建一个𝑘近邻图(𝑘-NN graph),该图被输入至MFGNN,以提取细胞之间的拓扑结构信息。同时,基于ZINB的自编码器对基因表达进行建模,学习其低维潜在表示。

随后,MFGNN通过注意力机制,将GNN模块学习到的表示与ZINB自编码器在同一层中提取的嵌入信息进行整合。此外,MFGNN还进一步融合来自不同层的多尺度信息,以实现更有效的联合建模。

最终,模型引入一种联合互监督机制,同时训练和优化MFGNN与ZINB自编码器。为了优化细胞聚类效果,并学习细胞间的拓扑结构表示,scMFGNN在训练过程中引入了三类损失函数:

  • ZINB损失(用于建模零膨胀的负二项分布数据);

  • 聚类损失(用于提升细胞聚类的判别能力);

  • 重构损失(用于保持数据表示的一致性和完整性)。

通过联合最小化上述三种损失,scMFGNN能够实现最终高质量的细胞聚类结果。

实验


这篇其实是将AGCN模型应用到了单细胞测序聚类应用中,为了适合此类数据在AGCN模型的基础上增加了ZINB分布的约束。

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐