关键词:
肺炎,支原体
重症肺炎支原体肺炎
机器学习
Shapley加性解释
预测
摘要:
目的构建重症肺炎支原体肺炎(SMPP)风险的机器学习(ML)预测模型,并采用Shapley加性解释(SHAP)方法解释和可视化该模型及开发相应的网络计算器。方法回顾性选取2021年1月-2024年5月南通大学杏林学院附属医院收治的肺炎支原体肺炎(MPP)患儿317例为研究对象。将MPP患儿按照3∶2的比例划分为训练集(n=190)和测试集(n=127)。收集患儿临床资料,预处理数据后采用Boruta算法筛选SMPP风险特征变量,并绘制箱线图。基于SMPP风险特征变量构建5种ML模型〔即梯度提升机(GBM)、线性判别分析(LDA)、朴素贝叶斯(NB)、支持向量机(SVM)、XGBoost模型〕。使用permutation函数将训练集、测试集患儿分别随机分成10份,采用ROC曲线下面积(AUC)评估5种ML模型对训练集、测试集MPP患儿进展为SMPP的预测效能,筛选出预测效能最优的ML模型(AUC最大),并使用决策曲线评估筛选出的ML模型的临床适用性。采用SHAP方法解释和可视化筛选出的ML模型,并绘制SHAP条形图、摘要图。开发筛选出的ML模型的网络计算器。结果箱线图分析结果显示,SMPP风险特征变量为持续发热时间、急性生理学和慢性健康状况评价Ⅱ(APACHEⅡ)评分、序贯器官衰竭评估(SOFA)评分、C反应蛋白(CRP)、乳酸脱氢酶(LDH)、天冬氨酸氨基转移酶(AST)、中性粒细胞与淋巴细胞比值(NLR)。ROC曲线分析结果显示,GBM、LDA、NB、SVM、XGBoost模型预测训练集、测试集MPP患儿进展为SMPP的AUC均>0.75,且XGBoost模型的AUC最大。决策曲线分析结果显示,当风险阈值为0.113~0.732时,XGBoost模型预测训练集MPP患儿进展为SMPP的临床净收益>0;当风险阈值为0.869~0.741时,XGBoost模型预测测试集MPP患儿进展为SMPP的临床净收益>0。SHAP条形图显示,重要性从大到小的SMPP风险特征变量依次为LDH、SOFA评分、APACHEⅡ评分、CRP、持续发热时间、NLR和AST;SHAP摘要图显示,LDH、SOFA评分、APACHEⅡ评分、CRP、持续发热时间、NLR和AST均对SMPP风险具有正向贡献。开发XGBoost模型的网络计算器(https://***/SMPP_shiny/)。结论持续发热时间、APACHEⅡ评分、SOFA评分、CRP、LDH、AST、NLR为SMPP风险特征变量,本研究基于上述变量构建的SMPP风险的可解释XGBoost模型具有较好的临床适用性,且相应开发的网络计算器有助于完善SMPP的早期预防和管理,并推动MPP患儿的个性化干预。