关键词:
乳腺癌
乳腺X线摄影
人表皮生长因子受体-2
术前预测
机器学习
预测模型
摘要:
目的:观察基于数字化乳腺X线机器学习模型术前预测乳腺癌HER2低表达价值。方法:回顾性分析2021年1月-2023年10月经术后病理证实的乳腺癌患者153例临床及X线资料。按照8:2比例分为训练集(122例)和测试集(31例)。于头尾位(CC)和内外侧斜位(MLO)图像中分别勾画感兴趣区,在训练集中利用组内相关系数(ICC)最小绝对收缩和选择算子(LASSO)筛选最佳影像特征,应用决策树、随机森林、Xgboost、Catboost机器学习算法分别构建CC位、MLO位及CC联合MLO位机器学习模型,用于预测乳腺癌HER2低表达,通过各模型的受试者工作特征曲线下面积(ROC)、准确率(ACC)、敏感度、特异度、阳性预测值(PPV)、阴性预测值(NPV)、F1分数、布里尔分数(BS)校准曲线、决策曲线、Delong检验对模型进行评价。结果:训练集和测试集对两组HER2表达状态、年龄、肿瘤生长部位及肿瘤最大直径上没有差异(P>0.05)。CC位、MLO位、CC位联合MLO位分别筛选出9、6、13个最优影像组学特征用于模型构建。在测试集中,CC位构建的4种机器学习模型以随机森林模型的曲线下面积(AUC)为最大,其AUC、ACC、敏感度、特异度、PPV、NPV、F1分数分别为0.909、0.744、0.850、0.636、0.818、0.700、0.830,Delong检验显示决策树与随机森林、决策树与Xgboost、决策树与Catboost均有差异(P<0.05),而随机森林、Xgboost和Catboost模型之间无差异(P>0.05);MLO位构建的4种模型以随机森林模型AUC为最大,其AUC、ACC、敏感度、特异度、PPV、NPV、F1分数分别为0.923、0.774、0.800、0.727、0.842、0.667、0.820,Delong检验显示决策树、随机森林、Xgboost和Catboost模型之间无差异(P>0.05);CC联合MLO位构建的4种模型中,Catboost模型的AUC值最高,其AUC值、ACC、敏感度、特异度、PPV、NPV、F1分数分别0.936、0.806、0.800、0.818、0.889、0.692、0.842,随机森林稍次之,分别为0.932、0.806、0.800、0.818、0.889、0.692、0.842,Delong检验显示决策树、随机森林、Xgboost和Catboost模型之间均无差异(P>0.05)。校准曲线显示,CC联合MLO体位构建的随机森林模型和Catboost模型曲线拟合度较好,且Catboost模型BS值最小为0.115,略优于随机森林模型(BS值为0.118)。决策曲线显示,当阈值在0.03~0.98时,CC联合MLO体位的Catboost模型预测乳腺癌HER2低表达临床获益最大。结论:基于数字化乳腺X线的机器学习模型可以术前预测乳腺癌HER2低表达,CC联合MLO体位的随机森林模型和Catboost模型预测性能较好,且随机森林算法构建的模型更稳健。