第一句子大全,网罗天下好句子,好文章尽在本站!

基于肺腺癌数据集的机器学习预测免疫相关基因对患者预后的影响验证

时间:2024-01-31

通过分析这些基因在肺腺癌患者中的表达模式,我们希望能够建立一个预测模型,帮助医生更准确地评估患者的预后情况,为个体化治疗提供依据

友情提示:本文共有 1612 个字,阅读大概需要 4 分钟。

本研究旨在利用肺腺癌数据集,运用机器学习技术构建并验证12个与免疫相关的基因,以预测患者的预后情况。通过分析这些基因在肺腺癌患者中的表达模式,我们希望能够建立一个预测模型,帮助医生更准确地评估患者的预后情况,为个体化治疗提供依据。这项研究的结果有望为肺腺癌患者的治疗决策和临床管理提供新的信息和指导。

Development and Validation of a 12-Gene Immune Relevant Prognostic Signature for Lung Adenocarcinoma Through Machine Learning Strategies

在肺腺癌数据集中使用机器学习构建并验证12个与免疫相关的基因来预测患者的预后情况发表期刊:Front Oncol发表日期: May 27影响因子:4.14DOI: 10.3389/fonc..00835

今天小编给大家带来这篇文章思路很简单,作者使用的特征基因集是免疫相关的基因集;

“小伙伴们可以换成自己感兴趣的基因集,如和脂质代谢,糖代谢,干细胞等相关的基因。”

作者使用建模方法为cox风险比例风险模型,随机森林;

“小伙伴们可以使用PCA分析,支持向量机,LASSO回归等机器学习算法。”

模型构建好了,后面的分析就很常规了。

来和小编一起看看吧!

01

流程图

图1 分析流程图

02

研究背景

肺癌是全球最常见的癌症,是男女癌症死亡的主要原因(占癌症死亡总数的18.4%),肺癌的5年生存率很低,在美国为21.2%,在中国为19.8%。肺腺癌(LUAD)是目前最常见的非小细胞肺癌(NSCLC)亚型,占肺癌发生率的40%以上。到目前为止,TNM分期和年龄等临床风险因素通常用于预测LUAD患者的生存情况并确定治疗方案。然而,由于固有的临床病理和分子多样性,在同一TNM阶段的LUAD预后也可能不同。因此,众多的临床因素预后模型和基因表达数据可作为TNM分期系统的辅助资料来预测LUAD的预后。然而,这些研究未能在基因选择过程之前考虑到预后基因的生物学功能。在过去的十年中,免疫检查点炎症如Nivolumab和Pembrolizumab治疗非小细胞肺癌,延长患者总生存期取得了巨大成功。但是,只有一小部分患者从临床治疗中获益。因此,迫切需要基于多重免疫相关基因标志物,以便为临床医生提供能够预测LUAD患者的预后。

03

材料和方法

1.数据下载

特征基因集:来源于Immport数据库,获得1,881个免疫相关基因的列表。

GEO数据库:GSE31210、GSE41271和GSE50081,这些芯片来源与同一个注释平台(Affymetrix Human Genome U133 Plus 2.0 chips),并存在完整的临床信息。

TCGA数据库:LUAD RNA-seq数据,相应的临床信息从UCSC-Xena数据库下载,并删除生存信息缺失的样本。

2.数据分析

数据预处理:使用R软件sva去除不同数据集之间的批次效应,R软件包limma用于背景调整和数据标准化。

3.识别与预后相关的基因

首先对免疫相关的基因做单因素cox回归分析识别与预后相关的基因,然后将临床变量信息加入其中进行多因素cox回归分析,最后使用R程序包randomForestSRC对基因进行进一步的降维,在进行多因素cox回归分析,构建模型评分公式,并根据所有样本评分的中值将样本分为高低风险两组。

4.统计分析

使用R程序包limma识别高风险组与低风险组样本中的差异基因(DEGs0),阈值为Fold change > 1.0 和FDR < 0.05。使用R程序包clusterProfiler对DEGs进行功能富集,然后对单样本基因集富集分析(ssGSVA),最后使用GSEA分析免疫细胞评分与分险得分的关系。使用ggplot2绘制KM曲线,不同组之间样本的差异使用t检验和log-rank检验,P<0.05代表结果是否显着性。

04

主要结果

1.患者临床信息统计

----------

这篇文章作者的研究思路如图1A所示。在这项研究中,作者从公共数据库中筛选了4个基因表达谱数据以及相应的临床生存信息,总共有954名患者纳入这项研究中,他们分别是GSE31210(n=204)、GSE41271(n=182)、GSE50081(n=127)和TCGA(n=441),数据集GSE31210作为构建模型的训练集,GSE41271、GSE50081和TCGA数据集作为模型的外部验证集。训练集、GEO外部验证集和TCGA验证集患者的中位总生存时间分别为60.5个月、45.1个月和20.85个月。

2.构建基因风险模型和模型风险评分

----------

从训练集中提取1811个免疫相关基因的表达谱数据,使用不同的算法,包括多变量Cox和随机生存森林识别与预后相关的基因。首先将基因表型数据与临床变量(如龄、性别、TNM分期和吸烟等因素)进行多因素回归分析,使用R软件包Survminer确定了免疫基因表达情况的最佳阈值,并计算了相应的HR和p值。结果显示有336个免疫基因与患者的预后显着相关(p<0.05)。然后,使用随机森林算法(RSF-VH)算法对336个基因进行进一步筛选,最终筛选出12个重要性大于0.01的基因。

进一步,作者基于随机森林得到的12个基因的表达量以及单因素回归分析产生相应的系数,构建一个基因风险模型,Risk score = (1.009∗S100A7) + (1.482∗ R3HDML) + (1.312∗ IL19) + (2.409∗ NRAS) + (1.764∗ BMP1)+ (0.887∗S100A11) + (1.494∗HMOX1) + (1.969∗ PAK1) + (2.292∗ S100A16) + (1.563∗ VEGFA) + (1.088∗ NDRG1) + (1.115∗ CSF1)。根据评分公式计算训练集中每个患者的风险评分,并根据风险评分的中位数(-2.65)将患者分为高风险组和低风险组,并进行Kaplan-Meier曲线分析,结果表明,在训练集中,高风险组的患者的OS显着低于低风险组(HR=10.6,95%CI(3.21-34.95),P<0.001,图1B)。表1总结了高低风险两组患者临床信息和病理信息。

表1 高低风险患者之间的临床信息比较

图2A展示12个风险基因在训练集中表达水平与患者的风险评分、高低风险分组、生存状态和TNM分期的关系,结果显示风险基因在高风险组中的表达量比低风险组的表达量高,这表明12个免疫相关的风险基因都与患者预后差有相关。此外,通过单因素cox回归分析,发现基因风险模型对训练集患者的预后有很强的预测性能(如3A),在加入年龄,性别、吸烟和TNM分期等其他临床因素进行多变量cox分析,在训练集中风险基因模型可以作为一个独立的预后指标(图3B)。

最后为了评估风险基因模型对患者预后预测的准确性,作者使用ROC分析,计算了训练集5年内患者OS的AUC,如图4A所示,12个基因风险模型(蓝色)的AUC(AUC=0.854,95%CI(0.79-0.92))明显优于其他临床变量(年龄、性别、吸烟和stage的AUC分别为0.57、0.559、0.567和0.653,P<0.01)。当将所有这些因素结合在一起时,可以得到对OS预测能力最强的模型(AUC=0.869,95%CI(0.81-0.93))。

3.使用GEO和TCGA验证集验证风险模型的鲁棒性

----------

进一步评估12个免疫相关基因风险模型的鲁棒性,我们在GEO和TCGA外部验证集中使用与训练集相同的基因和风险系数,并且使用验证集所有样本风险得分的中位数作为阈值,将患者分为高低风险两组,结果得到类似的结论。高风险组中患者比低风险组患者的预后更差,且两组之间的生存情况存在显着差异(GEO:HR=1.66,95%CI=1.15-2.39,log-rank P=0.005,图1C;TCGA:HR=1.93,95%CI=1.39-2.68,log-rank P<0.001,图1D)。然后将风险模型与临床因素(年龄、性别、吸烟和分期)相结合进行多因素cox回归分析,得到与训练集类似的结果,在验证集中风险基因模型也可以作为一个独立的预后指标(图3C、D)。由于训练集中只存在I期和II期的患者,故作者分别对不同病理时期的患者的预后情况进行了预测,结果与训练集的结果一致(图3E,F)。图2B、C分别展示这12个风险模型基因在GEO验证集和TCGA集表达水平分布和临床因素,结果显示,12个免疫相关基因的表达与风险评分呈正相关,在高风险组中高表达。同时,两个验证组的ROC分析也显示风险基因模型对患者的预后有很好的预测性能,与其他他临床因素相比,基因风险模型对患者预后的预测具有很强的优越性,特别是当将风险评分与其他因素结合在一起时(GEO验证集:AUC=0.969,95%CI=0.63–0.76,图4B;TCGA验证集,AUC=0.661,95%CI=0.60-0.76,图4C)。

4.高低风险组样本之间差异分析与富集分析

----------

作者在高风险组患者和低风险组样本中差异表达基因(DEG)分析,DEG分析的结果如图5A所示,图5A中标注的是与肿瘤驱动相关的基因。差异基因进行GO功能富集分析这些基因参与了激活肿瘤细胞外结构组织和核分裂等多条与肿瘤进展相关途径,参与激活补体激活和单核细胞外渗调节等免疫相关过程(图5B)。此外,我们在每个患者的表达谱中使用一系列已知的基因进行ssGSEA,红色区域表示相应通路被激活,通过图5C观察缺氧相关的通路、上皮-间质转化、PI3K-AKT-MTOR信号传导,免疫相关途径包括干扰素(IFN)γ反应或补体级联反应,在肿瘤相关过程中上调。同时,在两个外部验证队列中发现了相似的结果(图5D,E)。

5.风险模型与免疫细胞评分的关系

----------

从基因表达谱中提取597个与免疫微环境相关的基因,这些基因代表28个免疫细胞亚型,全面描述了不同风险组患者与免疫过程的相关性。使用ssGSEA算法估计每个样本中28个免疫细胞的相对丰度,并比较它们在高风险组和低风险组中的分布。如图6A、B所示,在高风险组观察到Th1、Th2、Th17、MDSC、巨噬细胞等免疫细胞被激活,他们大多数参与先天性免疫反应。还比较了高风险组和低风险组之间的其他免疫相关分子。发现高风险组细胞毒素CD274(PD-L1)、PDCD1、CTLA-4、HAVCR2、IFN-γ等表达上调肿瘤突变负荷也较高(图6C-E)。因此,我们可以认为高风险评分的患者具有明显的免疫炎症,并且可能从免疫检查点抑制剂中获益更多。

05

流程图

图2 训练集与验证集风险模型基因表达量与高低风险组的关系

图3 训练集与验证集中风险基因模型与临床因素的单因素和多因素分析

图4 训练集与验证集中风险基因模型与临床因素的ROC曲线分析

图5 训练集与验证集中高低风险两组之间差异基因分析与功能富集分析

图6 训练集高低风险两组患者之间的免疫评分分析

本文如果对你有帮助,请点赞收藏《基于肺腺癌数据集的机器学习预测免疫相关基因对患者预后的影响验证》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(4)
  1. 丁思烨2024-01-31 17:06丁思烨[新疆网友]43.250.144.169
    免疫相关基因的预测对于肺腺癌的治疗非常重要,期待这项研究结果的进一步应用。
    顶5踩0
  2. 水若沙2024-01-31 16:52水若沙[湖北省网友]103.56.187.133
    数据验证对疾病治疗的重要性不言而喻,希望这项研究可以为肺腺癌患者提供更有效的治疗方案。
    顶0踩0
  3. 虚空*恶兽2024-01-31 16:37虚空*恶兽[青海省网友]43.230.169.222
    机器学习在医学领域的应用越来越广泛,相信这项研究可以为肺腺癌患者带来新的希望。
    顶0踩0
  4. 超级玛丽2024-01-31 16:22超级玛丽[江苏省网友]124.68.107.95
    这个研究对肺腺癌的预后研究很有意义,希望可以为患者提供更精准的治疗方案。
    顶3踩0
相关阅读
收入下降40% 岗位没了!39岁杭州女幼师患癌 身边人一句话让她破防

收入下降40% 岗位没了!39岁杭州女幼师患癌 身边人一句话让她破防

那个独立创业的女强人,患上乳腺癌后向员工宣布:我得了癌症,但公司还要经营下去,你们愿意留的留下,不愿意的就离开

2023-01-20 #经典句子

免疫疗法中出现发烧怎么办?这篇文章告诉你答案?

免疫疗法中出现发烧怎么办?这篇文章告诉你答案?

大家都知道,与传统化疗药物相比,免疫疗法很少会出现脱发、恶心呕吐、骨髓抑制等不良反应,但并不是说免疫治疗就没有不良反应

2023-10-22 #经典句子

张文宏:免疫系统从来没有为人类活到100岁做好准备

张文宏:免疫系统从来没有为人类活到100岁做好准备

国家传染病医学中心主任、复旦大学附属华山医院感染科主任张文宏,11月3日,在由中央广播电视总台上海总站与世界顶尖科学家协会联合主办的科学嘉年华生

2016-12-01 #经典句子

中国团队《自然》子刊发文:探索植物人语言意识水平

中国团队《自然》子刊发文:探索植物人语言意识水平

研究团队在意识障碍患者上开展了语言加工相关神经表征的探索性研究,并将相关神经表征与机器学习方法相结合,成功实现了对患者意识状态的诊断和康复预测

2023-05-31 #经典句子

免疫系统的重要性:防止疾病侵入 抗击癌症

免疫系统的重要性:防止疾病侵入 抗击癌症

免疫系统在人体中扮演着重要的角色,一旦崩溃,其所引发的疾病便会趁虚而入。因此,人们迫切需要提高免疫力来应对各种不良影响。与此同时,免疫力的提高对于抗癌也是至关重要的,...

2024-01-30 #大杂绘

患上轻度抑郁症后 可能经常说这5句“口头禅” 希望你没有说过

患上轻度抑郁症后 可能经常说这5句“口头禅” 希望你没有说过

如今全球预计有3 5亿人患有抑郁症,但是却不足一半患者接受有效治疗,我国抑郁症患病率达2 1%,焦虑障碍患病率达4 98%

2023-06-28 #经典句子

听了糖友的一句话 作为营养师的我 让我觉得心痛至极!

听了糖友的一句话 作为营养师的我 让我觉得心痛至极!

经过对患者的了解,患者还在吸烟,并且每天至少一盒

2015-08-05 #经典句子

植物人能理解语言?华山医院神经外科探究汉语语义与复苏预测 成果刊《自然》

植物人能理解语言?华山医院神经外科探究汉语语义与复苏预测 成果刊《自然》

如何准确判断患者意识水平?怎样预测患者能否苏醒?成为一项临床难题

2023-10-28 #经典句子

揭开“粉红杀手”乳腺癌的神秘面纱 一文读懂乳腺癌

揭开“粉红杀手”乳腺癌的神秘面纱 一文读懂乳腺癌

坐诊时间:周一上午 附一医公园路院区周一下午 公园路院区名医馆周二、周四上午 附一医南白象院区周四下午 南白象院区名医馆哪些不良生活方式会为乳

2010-09-03 #经典句子