关键词:
肺炎,支原体
肺炎支原体肺炎
闭塞性细支气管炎
机器学习
摘要:
目的构建可解释机器学习(ML)模型来预测难治性肺炎支原体肺炎(MPP)患儿发生闭塞性细支气管炎(BO)的风险。方法选取2020年3月-2023年10月南通大学杏林学院附属医院收治的难治性MPP患儿212例作为研究对象。另选取2023年12月-2024年5月南通大学杏林学院附属医院收治的103例难治性MPP患儿作为外部验证集。收集患儿的临床资料,按照3∶2比例将212例患儿分为训练集(n=127)和测试集(n=85),使用R 4.4.1版软件构建9种ML模型,分别为灵活判别分析(FDA)、梯度增强机(GBM)、线性判别分析(LDA)、逻辑回归(LR)、混合判别分析(MDA)、朴素贝叶斯(NB)、随机森林(RF)、支持向量机(SVM)、极端梯度提升(XGBoost)模型。在训练集和测试集中随机抽样10次,并通过ROC曲线评估9种ML模型的预测效能。根据Shapley加法解释(SHAP)指南解释和可视化XGBoost模型,并绘制SHAP直方图、SHAP摘要图。绘制ROC曲线以评估XGBoost模型预测难治性MPP患儿发生BO的效能。以1例发生BO的患儿、1例未发生BO的患儿为例,基于SHAP直方图和SHAP摘要图结果可视化XGBoost模型。结果212例难治性MPP患儿中34例发生BO,BO发生率为16.0%。BO患儿发热时间长于非BO患儿,峰值温度、喘息发生率、低氧血症发生率、C反应蛋白(CRP)、丙氨酸氨基转移酶(ALT)、肌酸激酶MB(CK-MB)、乳酸脱氢酶(LDH)、D-二聚体(D-D)高于非BO患儿,血红蛋白(Hb)、白蛋白(ALB)、肌酐(Cr)低于非BO患儿(P<0.05)。ROC曲线分析结果显示,XGBoost模型预测训练集和测试集难治性MPP患儿发生BO的AUC均值分别为(0.997±0.002)、(0.964±0.014),大于其他ML模型。因此,后续选择XGBoost模型进行解释和可视化。SHAP直方图显示,LDH、CK-MB、峰值温度、发热时间、D-D、CRP、Cr、Hb、ALB、喘息、ALT、低氧血症的SHAP值分别为0.168、0.081、0.034、0.029、0.024、0.023、0.023、0.013、0.013、0.008、0.006、0.004;SHAP摘要图显示,12个特征变量预测BO风险时SHAP值存在“两端分离”现象。外部验证集难治性MPP患儿BO发生率为17.5%(18/103)。ROC曲线分析结果显示,XGBoost模型预测外部验证集难治性MPP患儿发生BO的AUC为0.842〔95%CI(0.762~0.910)〕。基于SHAP直方图和SHAP摘要图结果可视化XGBoost模型,结果显示,XGBoost模型预测1例BO患儿发生BO的风险为0.991,预测1例非BO患儿发生BO的风险为0.005。结论基于SHAP值的可解释XGBoost模型对难治性MPP患儿发生BO具有较高的预测价值。