关键词:
宫颈肿瘤
单细胞分析
光谱分析,拉曼
机器学习
算法
癌症早期检测
摘要:
目的构建基于单细胞拉曼光谱(SCRS)结合机器学习算法的宫颈癌早期筛查模型,并对该模型的效能进行评估。方法收集我院2023年9月—2024年6月128例患者的宫颈脱落细胞样本,其中65例液基薄层细胞学检测(TCT)结果为正常,35例结果为异常,其余28例样本未行TCT。采用R语言将100例具有TCT结果的宫颈脱落细胞样本,按照8∶2的比例随机分为训练集和测试集,并进行SCRS检测;基于训练集的SCRS数据,通过KNN、PLS、LDA、RF、SVM、SVMRBF和Stack七种机器学习算法构建宫颈癌早期筛查模型,并将模型应用于测试集,以筛选最优模型。采用最优模型预测训练集和测试集中100例宫颈脱落细胞样本的TCT结果,并与实际TCT结果对比。将28例未经TCT检测的宫颈脱落细胞样本作为验证集并对其进行TCT,采用最优模型预测其TCT结果,将预测结果与实际TCT结果对比。结果在训练集与测试集样本的TCT结果中,未见上皮内病变或恶性病变(NILM)、无明确诊断意义的非典型鳞状细胞(ASC-US)、低度鳞状上皮内病变(LSIL)的宫颈脱落细胞在拉曼光谱的874、935、1024、1119、1250、1328、1569、1642 cm^(-1)处特征峰的相对强度存在差异。七种算法中Stack生成的模型为最优模型,其曲线下面积(AUC)、准确率、灵敏度及特异度分别为0.987、99.2%、98.9%和99.3%。Stack模型在训练集和测试集中的预测结果与实际TCT结果一致性较高,其准确率、灵敏度、特异度、F1分数分别为91.0%、91.0%、87.4%、90.3%。Stack模型在验证集中预测TCT结果的准确率、灵敏度、特异度、F1分数分别为96.4%、100.0%、95.5%、92.3%。结论基于SCRS结合机器学习算法构建的宫颈癌早期筛查模型效能较好,可作为一种无创、高效、快速的筛查工具辅助临床宫颈癌的早期筛查。