争议:机器学习临床预测模型,能否绘制列线图?
在构建预测模型之前,研究团队采用 Kaplan–Meier分析及 log‑rank 检验评估谵妄组与非谵妄组的生存差异,并构建多变量 Cox 比例风险模型,评估谵妄与败血症患者 28 天生存状况的关联。值得注意,研究团队基于最优XGBoost模型及SHAP贡献度,选取前五大变量(高血压、SOFA评分、氯离子、Hb、肌酐)构建列线图,以提升临床可用性并便于临床快速决策。这里要说明下,它构建预测模型的

今天分享的这篇预测模型文章,变量筛选的思路有点意思,作者通过两种方法:LASSO法与森林之神—Boruta法进行变量筛选,取两者交集作为预测因子构建预测模型。
LASSO法与Boruta法都是预测模型文章筛选变量的常用方法,本文取两者交集,有助于识别重要特征,减少冗余,这是值得推荐的!
但是,文章最后基于XGBoost模型绘制列线图,这种做法是可行的吗?机器学习也能做列线图吗?
2025年4月23日,扬州大学学者在期刊《Bmc Infectious Diseases》发表了一篇题为:“Interpretable machine learning model for predicting delirium in patients with sepsis: a study based on the MIMIC data”的研究论文,旨在构建可解释的机器学习模型,以预测败血症患者发生谵妄的风险,并探讨谵妄对患者28天生存率的影响。

采用 MIMIC‑IV(重症医学数据库)数据,纳入年龄大于18岁的10,321例满足条件的败血症患者。
谵妄对患者28天生存率的影响
在构建预测模型之前,研究团队采用 Kaplan–Meier分析及 log‑rank 检验评估谵妄组与非谵妄组的生存差异,并构建多变量 Cox 比例风险模型,评估谵妄与败血症患者 28 天生存状况的关联。
结果显示,谵妄组患者的 28 天死亡风险显著增高,差异具有统计学意义(log‑rank P < 0.001),多因素cox回归结果一致。
为了探讨谵妄是否通过其他变量影响败血症患者的短期生存,采用中介效应分析。结果表明,谵妄可能通过年龄、血红蛋白(Hb)、血尿素氮(BUN)和乳酸(Lac)影响败血症患者的28天死亡结局。

本文重点在于机器学习构建预测模型,此部分略写!
构建可解释机器学习预测模型
本文建模步骤条理非常清晰!
1.数据集随机拆分
首先,研究团队将样本按 7∶3 比例随机分为训练集和验证集。
2.变量筛选
在训练集上分别使用 Lasso 回归和 Boruta 方法进行特征筛选,最终仅选取两种方法均识别出的变量,共19项。


3.机器学习算法建模
分别构建 XGBoost(极端梯度提升)、SVM(支持向量机)、Logistic 回归和 RF(随机森林)四种机器学习模型进行预测。
4.模型性能评估
根据训练集和验证集的受试者工作特征曲线(ROC)下面积(AUC)、灵敏度、特异性、召回率、F1 值和准确率评估模型性能,XGBoost模型表现最佳!


决策曲线分析(DCA)及校准曲线均显示XGBoost模型具有最佳临床净收益和良好校准度。

5.模型解释SHAP分析
进一步利用 SHAP 方法绘制变量贡献条形图,量化各特征对预测结果的影响。

同时对单个样本进行特征影响评估,展示模型对某一患者的预测过程,红色条表示负向贡献,蓝色条表示正向贡献,f(x)为最终SHAP值,以增强模型可解释性。

6.绘制列线图
值得注意,研究团队基于最优XGBoost模型及SHAP贡献度,选取前五大变量(高血压、SOFA评分、氯离子、Hb、肌酐)构建列线图,以提升临床可用性并便于临床快速决策。

列线图预测谵妄的AUC为0.767(95% CI:0.726–0.798),校准曲线显示模型预测概率与实际观察结果一致。
机器学习临床预测模型能否绘制列线图?
本文建模步骤条理非常清晰。
研究团队先用机器学习,筛选自变量,然后建模,然后基于SHAP发来挑选最重要的5个变量,最后绘制列线图。这里要说明下,它构建预测模型的方法是非参数法,往往是非线性的机器学习方法,而最终绘制列线图是基于logistic回归开展的。只是用XGBoost 模型和SHAP来挑选出在XGBoost模型中重要性排名前五的变量。
这样以吗?
老郑认为这是值得商榷的,XGBoost模型和SHAP方法挑选得到的变量不是基于线性关系筛选,而列线图则是基于线性模型的。XGBoost和SHAP特征重要性排名挑选得到的变量,在Logistic回归模型中不一定是最佳的预测因子。
因此,对于这种做法,各位可以尝试,我也看到了很多论文都是这么做,但谨慎用于下结论。
【感谢阅读浙中大郑老师团队撰写的统计文章】
关于郑老师团队及公众号
大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理
我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、CHARLS、孟德尔随机化方法、MIMIC 一对一R语言指导开展统计分析(一年内不限时间,周末、晚上均统计师一对一指导)。
①指导学习R语言基本技巧
②全程指导课程学习
③课程R语言代码运行bug修复
④支持学员一篇SCI论文的数据分析
详情联系助教小董咨询(微信号aq566665)

更多推荐



所有评论(0)