【每天一个知识点】Protein–protein interaction (PPI)
摘要:蛋白质相互作用(PPI)网络通过节点(蛋白质)和边(相互作用)展示生物分子关系,在疾病机制、药物靶点发现和功能研究中具有重要价值。常用数据库包括STRING、BioGRID等,分析方法涵盖网络拓扑、社区发现和图深度学习。在单细胞转录组分析中,PPI网络构建流程包括:筛选差异基因、基因名转换、数据库查询及可视化。典型应用包括利用STRINGdb获取子网络,用于图神经网络建模和hub蛋白识别。该
Protein–protein interaction (PPI) networks 指的是 蛋白质之间相互作用的网络,它在生物信息学和系统生物学中具有重要意义。下面是简明概述:
✅ 定义:
PPI networks 是一种图模型,用于表示和研究 蛋白质之间物理或功能上的相互作用关系。
在该网络中:
-
节点(Nodes) 表示蛋白质;
-
边(Edges) 表示两个蛋白质之间的相互作用(可能是实验验证的,也可能是预测得到的)。
✅ 应用场景:
-
疾病机制研究:找出疾病相关蛋白及其交互伙伴;
-
药物靶点发现:识别关键节点或 hub 蛋白;
-
功能模块挖掘:识别功能相关的蛋白群体(如通路、复合体);
-
蛋白质功能预测:通过相互作用推测未知蛋白功能。
✅ 数据来源:
常用的 PPI 数据库包括:
-
STRING(含预测+实验数据)
-
BioGRID
-
IntAct
-
DIP
-
HPRD
✅ 网络分析方法:
常见分析技术包括:
-
网络拓扑分析(如度、介数中心性)
-
社区发现(模块划分)
-
图卷积网络(GCN)等深度学习方法
-
网络表示学习(如 Node2Vec、GraphSAGE)
📌 举例:
如果两个蛋白质 A 和 B 在实验中发现它们可以形成复合体,那么它们之间在 PPI 网络中就有一条边连接。
在单细胞转录组(scRNA-seq)分析中,获取与数据集相关的 PPI(蛋白–蛋白相互作用)网络,通常有以下几种流程:
✅ 场景:已获得 scRNA-seq 表达矩阵 → 想提取相关的 PPI 网络
📌 步骤一:提取目标基因列表
从 scRNA 数据中获取用于构建 PPI 的基因(或蛋白)集,常见方法有:
| 方法 | 说明 |
|---|---|
| 🧬 Highly Variable Genes (HVGs) | 提取变异度最大的前 1000–2000 个基因 |
| 🎯 Differentially Expressed Genes (DEGs) | 各类群之间的差异表达基因(例如不同细胞类型、不同状态) |
| 📌 Marker genes | 聚类后提取各簇特异性 marker 基因 |
📌 步骤二:基因名转换(可选)
如果你提取的是 Ensembl ID 或基因名称(如 ENSG...),需要转换为 标准蛋白名称(如 UniProt symbol、Gene Symbol),以便后续对接数据库。
工具推荐:
-
biomaRt(R包) -
mygene(Python) -
UniProt官网批量转换:https://www.uniprot.org/uploadlists/
📌 步骤三:查询 PPI 网络
根据目标基因列表去数据库中提取对应的 PPI 子网。
✅ 常用 PPI 数据库及使用方式:
| 数据库 | 说明 | 接口/工具 |
|---|---|---|
| STRING(推荐) | 含实验、预测、文献推理的 PPI,大量已标准化评分 | 官网、R包 STRINGdb、Python API |
| BioGRID | 实验支持数据丰富 | 官网、FTP下载 |
| IntAct / MINT | 文献手工注释,质量高 | 官网查询、PSICQUIC接口 |
| HPRD | 人类蛋白专属,整合全面 | 官网下载 |
✅ 示例:使用 STRING 获取 PPI 子网络(以 R 为例)
library(STRINGdb)
string_db <- STRINGdb$new(version="11.5", species=9606, score_threshold=400)
mapped_genes <- string_db$map(data.frame(gene=gene_list), "gene", removeUnmappedRows=TRUE)
ppi_network <- string_db$get_interactions(mapped_genes$STRING_id)
📊 步骤四:构建子网络 / 可视化
将提取到的 PPI 网络:
-
转为图(Graph)结构:使用
igraph/networkx/ Cytoscape -
可视化核心网络或 hub gene
-
用作后续的图学习(如 GCN、GraphSAGE)
✅ 总结流程:
scRNA-seq 表达矩阵
↓
选取目标基因(DEGs / HVGs / markers)
↓
基因名转换为标准蛋白名(如Gene Symbol)
↓
从 STRING / BioGRID 提取对应的 PPI 子网络
↓
构建图结构 → 用于分析 / 图神经网络建模

这是一个示意性的蛋白–蛋白相互作用(PPI)网络图,展示了从单细胞转录组(scRNA-seq)数据中筛选出的关键基因之间的相互作用关系。
-
节点代表蛋白(如 TP53、BCL2 等)
-
边代表蛋白之间的已知/预测相互作用
-
可用于下游图分析,如识别hub蛋白、构建GNN模型等
更多推荐



所有评论(0)