友情提示:本文共有 1612 个字,阅读大概需要 4 分钟。
本研究旨在利用肺腺癌数据集,运用机器学习技术构建并验证12个与免疫相关的基因,以预测患者的预后情况。通过分析这些基因在肺腺癌患者中的表达模式,我们希望能够建立一个预测模型,帮助医生更准确地评估患者的预后情况,为个体化治疗提供依据。这项研究的结果有望为肺腺癌患者的治疗决策和临床管理提供新的信息和指导。
Development and Validation of a 12-Gene Immune Relevant Prognostic Signature for Lung Adenocarcinoma Through Machine Learning Strategies
在肺腺癌数据集中使用机器学习构建并验证12个与免疫相关的基因来预测患者的预后情况发表期刊:Front Oncol发表日期: May 27影响因子:4.14DOI: 10.3389/fonc..00835
今天小编给大家带来这篇文章思路很简单,作者使用的特征基因集是免疫相关的基因集;
“小伙伴们可以换成自己感兴趣的基因集,如和脂质代谢,糖代谢,干细胞等相关的基因。”
作者使用建模方法为cox风险比例风险模型,随机森林;
“小伙伴们可以使用PCA分析,支持向量机,LASSO回归等机器学习算法。”
模型构建好了,后面的分析就很常规了。
来和小编一起看看吧!
01
—
流程图
图1 分析流程图
02
—
研究背景
肺癌是全球最常见的癌症,是男女癌症死亡的主要原因(占癌症死亡总数的18.4%),肺癌的5年生存率很低,在美国为21.2%,在中国为19.8%。肺腺癌(LUAD)是目前最常见的非小细胞肺癌(NSCLC)亚型,占肺癌发生率的40%以上。到目前为止,TNM分期和年龄等临床风险因素通常用于预测LUAD患者的生存情况并确定治疗方案。然而,由于固有的临床病理和分子多样性,在同一TNM阶段的LUAD预后也可能不同。因此,众多的临床因素预后模型和基因表达数据可作为TNM分期系统的辅助资料来预测LUAD的预后。然而,这些研究未能在基因选择过程之前考虑到预后基因的生物学功能。在过去的十年中,免疫检查点炎症如Nivolumab和Pembrolizumab治疗非小细胞肺癌,延长患者总生存期取得了巨大成功。但是,只有一小部分患者从临床治疗中获益。因此,迫切需要基于多重免疫相关基因标志物,以便为临床医生提供能够预测LUAD患者的预后。
03
—
材料和方法
1.数据下载
特征基因集:来源于Immport数据库,获得1,881个免疫相关基因的列表。
GEO数据库:GSE31210、GSE41271和GSE50081,这些芯片来源与同一个注释平台(Affymetrix Human Genome U133 Plus 2.0 chips),并存在完整的临床信息。
TCGA数据库:LUAD RNA-seq数据,相应的临床信息从UCSC-Xena数据库下载,并删除生存信息缺失的样本。
2.数据分析
数据预处理:使用R软件sva去除不同数据集之间的批次效应,R软件包limma用于背景调整和数据标准化。
3.识别与预后相关的基因
首先对免疫相关的基因做单因素cox回归分析识别与预后相关的基因,然后将临床变量信息加入其中进行多因素cox回归分析,最后使用R程序包randomForestSRC对基因进行进一步的降维,在进行多因素cox回归分析,构建模型评分公式,并根据所有样本评分的中值将样本分为高低风险两组。
4.统计分析
使用R程序包limma识别高风险组与低风险组样本中的差异基因(DEGs0),阈值为Fold change > 1.0 和FDR < 0.05。使用R程序包clusterProfiler对DEGs进行功能富集,然后对单样本基因集富集分析(ssGSVA),最后使用GSEA分析免疫细胞评分与分险得分的关系。使用ggplot2绘制KM曲线,不同组之间样本的差异使用t检验和log-rank检验,P<0.05代表结果是否显着性。
04
—
主要结果
1.患者临床信息统计
----------
这篇文章作者的研究思路如图1A所示。在这项研究中,作者从公共数据库中筛选了4个基因表达谱数据以及相应的临床生存信息,总共有954名患者纳入这项研究中,他们分别是GSE31210(n=204)、GSE41271(n=182)、GSE50081(n=127)和TCGA(n=441),数据集GSE31210作为构建模型的训练集,GSE41271、GSE50081和TCGA数据集作为模型的外部验证集。训练集、GEO外部验证集和TCGA验证集患者的中位总生存时间分别为60.5个月、45.1个月和20.85个月。
2.构建基因风险模型和模型风险评分
----------
从训练集中提取1811个免疫相关基因的表达谱数据,使用不同的算法,包括多变量Cox和随机生存森林识别与预后相关的基因。首先将基因表型数据与临床变量(如龄、性别、TNM分期和吸烟等因素)进行多因素回归分析,使用R软件包Survminer确定了免疫基因表达情况的最佳阈值,并计算了相应的HR和p值。结果显示有336个免疫基因与患者的预后显着相关(p<0.05)。然后,使用随机森林算法(RSF-VH)算法对336个基因进行进一步筛选,最终筛选出12个重要性大于0.01的基因。
进一步,作者基于随机森林得到的12个基因的表达量以及单因素回归分析产生相应的系数,构建一个基因风险模型,Risk score = (1.009∗S100A7) + (1.482∗ R3HDML) + (1.312∗ IL19) + (2.409∗ NRAS) + (1.764∗ BMP1)+ (0.887∗S100A11) + (1.494∗HMOX1) + (1.969∗ PAK1) + (2.292∗ S100A16) + (1.563∗ VEGFA) + (1.088∗ NDRG1) + (1.115∗ CSF1)。根据评分公式计算训练集中每个患者的风险评分,并根据风险评分的中位数(-2.65)将患者分为高风险组和低风险组,并进行Kaplan-Meier曲线分析,结果表明,在训练集中,高风险组的患者的OS显着低于低风险组(HR=10.6,95%CI(3.21-34.95),P<0.001,图1B)。表1总结了高低风险两组患者临床信息和病理信息。
表1 高低风险患者之间的临床信息比较
图2A展示12个风险基因在训练集中表达水平与患者的风险评分、高低风险分组、生存状态和TNM分期的关系,结果显示风险基因在高风险组中的表达量比低风险组的表达量高,这表明12个免疫相关的风险基因都与患者预后差有相关。此外,通过单因素cox回归分析,发现基因风险模型对训练集患者的预后有很强的预测性能(如3A),在加入年龄,性别、吸烟和TNM分期等其他临床因素进行多变量cox分析,在训练集中风险基因模型可以作为一个独立的预后指标(图3B)。
最后为了评估风险基因模型对患者预后预测的准确性,作者使用ROC分析,计算了训练集5年内患者OS的AUC,如图4A所示,12个基因风险模型(蓝色)的AUC(AUC=0.854,95%CI(0.79-0.92))明显优于其他临床变量(年龄、性别、吸烟和stage的AUC分别为0.57、0.559、0.567和0.653,P<0.01)。当将所有这些因素结合在一起时,可以得到对OS预测能力最强的模型(AUC=0.869,95%CI(0.81-0.93))。
3.使用GEO和TCGA验证集验证风险模型的鲁棒性
----------
进一步评估12个免疫相关基因风险模型的鲁棒性,我们在GEO和TCGA外部验证集中使用与训练集相同的基因和风险系数,并且使用验证集所有样本风险得分的中位数作为阈值,将患者分为高低风险两组,结果得到类似的结论。高风险组中患者比低风险组患者的预后更差,且两组之间的生存情况存在显着差异(GEO:HR=1.66,95%CI=1.15-2.39,log-rank P=0.005,图1C;TCGA:HR=1.93,95%CI=1.39-2.68,log-rank P<0.001,图1D)。然后将风险模型与临床因素(年龄、性别、吸烟和分期)相结合进行多因素cox回归分析,得到与训练集类似的结果,在验证集中风险基因模型也可以作为一个独立的预后指标(图3C、D)。由于训练集中只存在I期和II期的患者,故作者分别对不同病理时期的患者的预后情况进行了预测,结果与训练集的结果一致(图3E,F)。图2B、C分别展示这12个风险模型基因在GEO验证集和TCGA集表达水平分布和临床因素,结果显示,12个免疫相关基因的表达与风险评分呈正相关,在高风险组中高表达。同时,两个验证组的ROC分析也显示风险基因模型对患者的预后有很好的预测性能,与其他他临床因素相比,基因风险模型对患者预后的预测具有很强的优越性,特别是当将风险评分与其他因素结合在一起时(GEO验证集:AUC=0.969,95%CI=0.63–0.76,图4B;TCGA验证集,AUC=0.661,95%CI=0.60-0.76,图4C)。
4.高低风险组样本之间差异分析与富集分析
----------
作者在高风险组患者和低风险组样本中差异表达基因(DEG)分析,DEG分析的结果如图5A所示,图5A中标注的是与肿瘤驱动相关的基因。差异基因进行GO功能富集分析这些基因参与了激活肿瘤细胞外结构组织和核分裂等多条与肿瘤进展相关途径,参与激活补体激活和单核细胞外渗调节等免疫相关过程(图5B)。此外,我们在每个患者的表达谱中使用一系列已知的基因进行ssGSEA,红色区域表示相应通路被激活,通过图5C观察缺氧相关的通路、上皮-间质转化、PI3K-AKT-MTOR信号传导,免疫相关途径包括干扰素(IFN)γ反应或补体级联反应,在肿瘤相关过程中上调。同时,在两个外部验证队列中发现了相似的结果(图5D,E)。
5.风险模型与免疫细胞评分的关系
----------
从基因表达谱中提取597个与免疫微环境相关的基因,这些基因代表28个免疫细胞亚型,全面描述了不同风险组患者与免疫过程的相关性。使用ssGSEA算法估计每个样本中28个免疫细胞的相对丰度,并比较它们在高风险组和低风险组中的分布。如图6A、B所示,在高风险组观察到Th1、Th2、Th17、MDSC、巨噬细胞等免疫细胞被激活,他们大多数参与先天性免疫反应。还比较了高风险组和低风险组之间的其他免疫相关分子。发现高风险组细胞毒素CD274(PD-L1)、PDCD1、CTLA-4、HAVCR2、IFN-γ等表达上调肿瘤突变负荷也较高(图6C-E)。因此,我们可以认为高风险评分的患者具有明显的免疫炎症,并且可能从免疫检查点抑制剂中获益更多。
05
—
流程图
图2 训练集与验证集风险模型基因表达量与高低风险组的关系
图3 训练集与验证集中风险基因模型与临床因素的单因素和多因素分析
图4 训练集与验证集中风险基因模型与临床因素的ROC曲线分析
图5 训练集与验证集中高低风险两组之间差异基因分析与功能富集分析
图6 训练集高低风险两组患者之间的免疫评分分析
本文如果对你有帮助,请点赞收藏《基于肺腺癌数据集的机器学习预测免疫相关基因对患者预后的影响验证》,同时在此感谢原作者。