结直肠癌在我国的发病率呈逐年上升的趋势,在结直肠癌的治疗中,基于生物标志物检测进行治疗决策已是共识。今天给大家分享的是一篇关于结直肠癌的免疫相关lncRNA 特征的文章,发表于《nature communications》(IF: 14.919)上。
基于机器学习的整合开发了一种用于改善结直肠癌预后的免疫相关lncRNA 特征
研究思路
本研究收集了多个数据集,同时也结合了内部临床数据集。总体研究思路是算法开发、模型构建、公共数据集和内部临床数据集的验证、耐药性和临床治疗研究。基于机器学习的算法开发是本研究的一大亮点。
结果
1. 免疫浸润亚群的鉴定和验证
作者首先通过根据ssGSEA 评估的 28 个免疫细胞浸润丰度对CRC样本进行了共识聚类,将所有样本分成C1和C2两大亚群,C2 的总体浸润程度明显高于 C1。然后作者通过 ESTIMATE 算法计算的 TCGA-CRC 队列中两个亚群之间的免疫评分情况,C2也是高于C1,说明了ssGSEA 结果的稳定性和可靠性(图1A-D)。
2. 鉴定源自免疫浸润模块的 lncRNA 模块
为提取出与免疫相关的lncRNA,作者进一步进行了WGCNA分析,结果发现黄色模块与免疫的相关性最高(图1F)。于是作者从这一模块中筛选出了526 个lncRNA,其筛选标准是GS(Gene Signifificance) > 0.5 和 MM(Module Membership)> 0.6(图1G)。
3. 根据ImmLnc算法筛选免疫相关 lncRNA
ImmLnc是一种用于识别免疫相关通路的 lncRNA的集成算法,首先是使用 ESTIMATE 算法推断肿瘤纯度,其次通过将肿瘤纯度调整为协变量,计算特定lncRNA与所有 mRNA 之间的偏相关系数 (PCC),最后,根据所有的mRNAs与特定lncRNA的相关系数进行排序,排序后的基因列表进一步进行 GSEA 分析。一般lncRES 评分 >0.995且 FDR < 0.05被认为具有统计学意义。
根据ImmLnc算法作者确定了 791 个免疫相关 lncRNA,它们与细胞因子受体、TCR 信号通路、趋化因子受体、NK细胞毒性和抗原加工和呈递等通路相关(图1H)。再通过与前面 WGCNA鉴定出的lncRNA取交集,共提取了 235个重叠的 lncRNA 用于后续分析(图 1I)。
4. 共识特征的综合构建
基于前面所鉴定出的235 个免疫相关 lncRNA 的表达谱,作者通过单变量Cox分析确定了 43 个预后相关lncRNA。在TCGA-CRC队列中,作者通过留一法交叉验证(LOOCV)拟合了 101 种预测模型,并进一步计算了每个模型在所有验证数据集中的C-index。发现最佳模型是Lasso 和逐步 Cox回归的组合,该组合模型在所有验证数据集中都具有很高的C-index(图2A)。然后作者确定了最佳 λ,并进一步生成预后基因的 Lasso 系数(图 2B)。作者接着对 Lasso 系数非零的 30 个 lncRNA 进行逐步 Cox 比例风险回归,最终确定了 16 个 lncRNA(图 2C),构建了免疫相关 lncRNA 特征(IRLS)。之后,作者根据 survminer 包确定的最佳临界值,将所有患者分为高危组和低危组。如图 2D-J 所示,在TCGA-CRC 训练数据集和六个验证数据集中,高风险组患者的总生存期 (OS) 明显低于低风险组。将所有样本组合在一起也显示出相同的趋势(图2K)。
5. IRLS 模型的评估
为进一步评估IRLS 模型的性能,作者计算了TCGA-CRC队列、GSE17536、GSE17537、GSE29621、GSE38832、GSE39582和GSE72970队列以及综合队列中样本1 年、3 年和 5 年的 AUC(图3A)。并计算出了所有数据集的 IRLS 的 C-index(图3B)。之后作者又对IRLS 在预测预后方面的表现与其他临床和分子变量进行了比较,如图 3C 所示,IRLS 的准确性明显优于其他变量。
6. CRC中基于基因表达的预后特征的比较
接下来,作者比较了 IRLS 与其他特征的性能,一共收集了109 个特征(包括 mRNA 和 lncRNA 特征)。作者对每个特征在所有数据集中进行了单变量Cox 回归,观察到只有IRLS模型与所有队列样本的预后显著相关(图 4A),这个结果证明了IRLS的稳定性。此外,作者又将 IRLS与其他特征的C-index进行了比较,发现IRLS 在每个数据集中都显示出比几乎其他所有特征更好的性能(图4B),这说明了IRLS模型的适用性较广。
7. 在临床内部队列中进行验证
为了进一步验证IRLS 模型在临床的可行性价值,作者接下来通过 qRT-PCR 分析评估了这些 lncRNA 在 232 名 CRC 患者的临床队列中的表达情况。Kaplan-Meier 分析表明,IRLS 高的患者的 OS 和 RFS 显著降低(图 5A-B)。在进一步的多变量 Cox 回归分析中,IRLS 模型对于 OS仍然具有统计学意义(图5C-D),与上述结果一致。接下来的ROC分析也显示 IRLS 的准确性更高:预测 1、3 和 5 年 OS的AUC 分别为 0.840、0.776 和 0.818(图5E)。此外,作者还比较了 IRLS 与其他临床特征的预测优势,结果发现IRLS 的预测性能优于其他特征(图5F)。总的来说,对临床内部队列的分析结果验证并证实了IRLS 模型的稳健性,说明其可以作为 CRC 预后的独立预测因子。
8. 氟尿嘧啶类ACT和贝伐单抗疗效的预测价值
研究表明,lncRNA 与氟尿嘧啶类ACT和贝伐单抗的敏感性和耐药性有关。因此,作者进一步评估了IRLS在量化氟尿嘧啶基ACT和贝伐单抗疗效的预测价值。研究中纳入了 6 个使用氟尿嘧啶类ACT治疗的数据集(GSE19860、GSE28702、GSE45404、GSE69657 、GSE72970和GSE62080),包括 180 名无应答者和 160 名应答者。结果发现应答组的 IRLS 分数显著高于无应答组(图6A-E)。图6F的GSE62080 中的应答组有更高IRLS 的趋势,但这并不显著。作者推测这可能是由于样本量太少。进一步的ROC 分析表明,IRLS 可以准确预测氟尿嘧啶类ACT的疗效(图 6G-L)。之后,作者也在内部队列中进行了相同的分析,也得到了同样的结论(6M-N)。最后,作者还收集了三个有贝伐单抗治疗信息的数据集(GSE19860、GSE19862 和 GSE72970),评估了IRLS 对贝伐单抗疗效的预测,与氟尿嘧啶类ACT 相比,对贝伐单抗敏感的患者,表现出较低的IRLS水平(图 6O-Q)。综合来看,IRLS高的患者往往对氟尿嘧啶类ACT敏感,对贝伐单抗耐药,而IRLS低的患者对贝伐单抗敏感,对氟尿嘧啶类ACT耐药。
9. IRLS 对 ICI 治疗的意义
由于IRLS是基于免疫相关的 lncRNA开发的,于是作者假设不同水平的 IRLS 的免疫特征和免疫治疗效果存在差异。细胞浸润分析显示 TCGA-CRC 和 Meta-GEO 队列中 IRLS 和免疫浸润丰度之间存在显著的负相关(图7A-D)。为了进一步验证CD8A 在不同 IRLS水平下的蛋白质表达,作者对石蜡切片进行了IHC,其中包括56个高风险CRC和 48个低风险CRC样本。 IHC 图像和评分显示,CD8A的表达在低风险组中显著升高(图7E-F)。这表明 IRLS 低的患者可能拥有更多的ICI(免疫检查点抑制剂 )治疗后备资源。此外,IRLS 还与 TCGA-CRC、Meta-GEO和内部队列中的 PD-L1 表达呈负相关(图7G)。在蛋白质水平上也有一致的发现(图 7I-J)。此外,微卫星状态也被认为是CRC中免疫浸润和 ICI 治疗的有力的生物标志物。在这项研究中,作者观察到 dMMR/MSI-H患者的IRLS 显著低于 pMMR/MSI-L/MSS 患者。同时,IRLS可以准确预测 TCGC-CRC、Meta-GEO和内部队列中的 dMMR/MSI-H 表型(图7K-M)。这表明 IRLS 是微卫星状态标记的有利替代物。最后,作者发现IRLS 还可以显著区分pembrolizumab的应答者和无应答者,并显著优于 PD-L1和 CD8A(图7N)。
总结
在本研究中,作者开发了一种基于机器学习的集成算法(ImmLnc),用于构建共识免疫相关 lncRNA 特征 (IRLS)模型。之后又通过评估IRLS模型在多个数据集中的应用性能、比较其他特征与IRLS模型的预测性能以及IRLS模型在临床样本中的应用,综合说明了IRLS模型的稳定性和可靠性。
参考文献
Liu, Z., Liu, L., Weng, S. et al. Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer. Nat Commun 13, 816 (2022).