关键词:
急性胰腺炎
急性呼吸窘迫综合征
重症监护病房
机器学习
随机森林
夏普利加性解释
摘要:
目的 旨在开发和验证一种基于机器学习算法的预测模型,用于评估急性胰腺炎(AP)患者在重症监护病房(ICU)内发生急性呼吸窘迫综合征(ARDS)的风险。方法 回顾性分析美国重症监护医学信息数据库Ⅳv2.2(MIMIC-Ⅳv2.2)中的857例AP患者的相关资料,按7∶3的比例随机划分为训练集(n=601)和内部验证集(n=256),另收集2019年1月至2024年3月苏州大学附属常熟医院ICU126例AP患者的相关资料作为外部测试集。根据是否并发ARDS将所有患者分为ARDS组与非ARDS组,收集其人口学特征、入ICU 24 h内初始的生命体征、实验室数据、功能评分及并发症情况,采用最小绝对收缩和选择算子(LASSO)回归进行特征选择,并使用随机森林(RF)、极端梯度提升(XGBoost)、轻量级梯度提升机(LightGBM)、决策树(DT)、逻辑回归(LR)、支持向量机(SVM)和K最近邻(KNN)7种机器学习算法构建预测模型。模型性能评估利用受试者工作特征(ROC)曲线、校准曲线及决策曲线分析(DCA),最后借助夏普利加性解释(SHAP)算法对模型进行可解释性分析。结果 MIMIC-Ⅳ数据库中202例(23.57%)并发ARDS,外部测试集中26例(20.63%)并发ARDS。基于训练集数据,采用LASSO回归从43个变量中筛选出7个关键变量进行模型构建,多种机器学习模型比较结果显示,RF模型在内部验证集和外部测试集ROC曲线下面积(AUC)分别为0.780(95%CI为0.721~0.846)和0.842(95%CI为0.751~0.917),均高于其他6种模型;校准曲线显示RF模型的预测概率与实际概率的偏差较其他模型小,整体预测性能最佳。基于RF模型的SHAP算法分析表明,机械通气、序贯器官功能衰竭(SOFA)评分、身体质量指数(BMI)、脉博血氧饱和度(SpO_(2))和简明急性生理功能Ⅱ(SAPSⅡ)评分是影响ARDS风险的主要因素。机械通气可使ARDS的发生风险从16%上升至37%;SOFA大于8分时ARDS风险会显著上升;ARDS发生风险会随着BMI的增加而升高;SpO_(2)低于90%时,ARDS发生风险维持在30%,当SpO_(2)超过90%后风险则随着SpO_(2)增加而呈下降趋势;SAPSⅡ评分在46~60分之间时,ARDS的风险呈明显上升趋势。结论 基于RF算法的预测模型为AP患者并发ARDS的风险评估提供了可靠工具,通过SHAP方法增强了模型的可解释性,有助于临床决策。