关键词:
卵巢透明细胞癌
机器学习算法
预后模型
SEER数据库
摘要:
目的:本研究旨在基于SEER数据库中卵巢透明细胞癌(ovarian clear cell carcinoma,OCCC)患者的临床病理数据,利用多种机器学习算法构建OCCC预后模型,并评估模型的预测性能,以期为OCCC患者的临床治疗和预后评估提供参考依据。方法:本研究利用SEER数据库中OCCC患者全部5452例的临床病理资料(2000~2019年),构建了基于多种机器学习算法的预后模型。研究纳入标准为具有完整临床病理资料、病理确诊为OCCC且诊断年份在2000年1月至2019年12月的患者,排除基线或随访资料缺失的患者,研究终点为患者的临床死亡,数据清洗后总例数1091例。选取了9个变量作为输入参数,并将患者的死亡情况作为输出参数。采用单因素Kaplan-Meier生存分析和Cox多因素回归分析进行统计分析,并利用Logistic回归模型、决策树模型、支持向量机、随机森林和人工神经网络构建预后模型。模型的预测性能通过灵敏度、特异度、准确度和AUC评估。为解决数据不平衡问题,将数据按照8:2的比例随机分成训练集和测试集,并采用SMOTE过采样和随机欠采样方法进行数据平衡。此外,还利用单因素Kaplan-Meier分析筛选出影响OCCC预后的重要变量,用于构建精简模型并进行模型比较。结果:在单因素Kaplan-Meier回归分析中,种族(P=0.004)、肿瘤左右偏侧(P<0.001)、肿瘤大小(T分期)(P<0.001)、淋巴结转移(N分期)(P<0.001)、远处转移(M分期)(P<0.001)、肿瘤分化程度(即分级)(P=0.030)这6个因素对患者生存时间具有显著影响,且6个因素之间无多重共线性,方差膨胀因子均<5。多因素Cox回归分析显示,种族中与白人相比,黑人(HR=2.409,P<0.001)与风险显著正相关;肿瘤左右偏侧中与双侧原发相比,左侧原发(HR=0.607,P<0.001)、右侧原发(HR=0.564,P=0.002)与风险显著负相关;T分期中与T1相比,T2分期(HR=3.060,P<0.001)和T3分期(HR=4.721,P<0.001)与风险显著正相关;N分期中,与N0相比,N1分期(HR=1.636,P<0.001),M分期中与M0相比,M1分期(HR=2.040,P<0.001)与风险显著正相关。比较5种机器学习模型发现,随机森林模型在训练集和测试集上的AUC值均最高,分别为0.868和0.762,表明其预测性能优于其他机器学习模型,可以有效预测OCCC患者的预后。5种模型中,T分期都是影响OCCC预后的最重要因素,特征重要度评分均最高。结论:随机森林模型可以有效预测OCCC患者的预后;T分期是影响OCCC预后的最重要因素。