关键词:
肺腺癌
肿瘤信号通路
计算生物学
机器学习
预后模型
摘要:
目的通过生物信息学方法开发与肿瘤信号通路相关的肺腺癌预后模型,并识别与肺腺癌发生相关的关键驱动基因。方法从TCGA数据库中收集450例肺腺癌组织和58例癌旁正常肺组织的转录组表达数据和临床特征,从GEO数据库中收集926例肺腺癌组织的转录组表达数据和临床特征。推断TCGA数据库、GSE30219数据集、GSE50081数据集样本中14种信号通路[雄激素、表皮生长因子受体(EGFR)、雌激素、缺氧、JAK-STAT、促分裂原活化的蛋白质激酶(MAPK)、核因子κB、p53、磷脂酰肌醇3激酶(PI3K)、转化生长因子β、肿瘤坏死因子α、肿瘤坏死因子相关凋亡诱导配体、血管内皮生长因子、Wnt]的活性。单因素Cox回归分析TCGA数据库、GSE30219数据集、GSE50081数据集肺腺癌组织中不同信号通路活性对患者预后的影响。采用Spearman秩相关分析探讨肿瘤信号通路活性与临床分期的相关性。采用一致性聚类方法,基于EGFR、MAPK、PI3K、p53信号通路活性对TCGA数据库肺腺癌样本进行聚类分群。绘制Kaplan-Meier生存曲线比较不同亚群的生存状态。识别C2亚群与其他亚群之间的差异基因,在TCGA数据库、GSE30219数据集和GSE50081数据集中对C2亚群的差异基因进行单因素Cox回归分析,筛选出共表达预后相关基因。基于4种机器学习算法筛选关键预后基因,构建肺腺癌预后模型。利用该预后模型计算肺腺癌患者的风险评分,依据风险评分的最佳截断值将患者分为高危组和低危组。采用Kaplan-Meier生存曲线和受试者操作特征(ROC)曲线进行性能评估。单因素和多因素Cox回归分析肺腺癌患者总生存期(OS)的影响因素。基于模型风险评分和相关临床特征构建列线图,用以预测肺腺癌患者1年、3年、5年生存率,并通过校准曲线和决策曲线分析进行验证。采用孟德尔随机化分析探讨PHF19基因表达与肺腺癌之间的关联性。预测靶向PHF19基因的潜在药物识别与分子对接。结果信号通路活性与肺腺癌患者预后的单因素Cox回归分析显示,促癌通路活性上调、抑癌通路活性下调与预后不良相关,进一步识别出EGFR、MAPK、PI3K、p53信号通路可能在肺腺癌预后中发挥核心作用。Spearman秩相关分析显示,EGFR、MAPK、PI3K信号通路活性与肺腺癌临床分期呈正相关(r值分别为0.291、0.408、0.167),而p53信号通路活性与临床分期呈负相关(r=-0.392)(均P<0.001)。将TCGA数据库中450例肺腺癌组织样本分为4个亚群:C1、C2、C3和C4。Log-rank检验与多重比较结果显示,C2亚群的生存状态最差(χ^(2)=39.25,P<0.0001)。通过与其他亚群进行差异基因分析,鉴定出C2亚群的1574个差异基因。通过单因素Cox回归分析筛选出310个共表达预后相关基因,结合4种机器学习算法筛选出11个关键预后基因,最终构建了StepCox[forward]-Ridge预后模型。Log-rank检验结果显示,在TCGA训练集和5个GEO验证集中,高危组的生存状态较低危组差(χ^(2)值分别为74.43、24.69、26.02、38.84、20.98、32.63,均P<0.001)。ROC曲线结果显示该预后模型在训练集和验证集中均展现出良好的预测性能。单因素和多因素Cox回归分析结果显示,StepCox[forward]-Ridge预后模型的风险评分是肺腺癌患者OS的影响因素(均P<0.001)。根据模型风险评分和相关临床特征构建列线图,校准曲线表明该列线图的预测结果与实际观察结果具有良好的一致性,决策曲线分析显示其临床净获益优于模型风险评分和相关临床特征。逆方差加权法显示,PHF19基因表达变化是肺腺癌发生的潜在致病因素(OR=1.099,P=0.024)。小分子药物儿茶素、肠内酯和曲格列酮与PHF19具有较强的结合能力。结论本研究通过系统分析与肺腺癌进展和预后相关的肿瘤信号通路,构建了一个基于11个关键预后基因的预后模型,并识别出PHF19基因是与肺腺癌发生相关的关键驱动基因。