你是否还在为没有自己的数据而发愁?是否还在为实验验证而为难?是否还在苦寻研究思路?今天小编就来给你分享一篇今年十月份发表在《frontiers in Cell and Developmental Biology》(IF:6.684)上的纯生信文章。这篇文章既没有自己测的数据也没有加入实验验证,只是巧妙的将scRNA-seq和bulk RNA-seq数据相结合起来,看完这个,你会发现你也可以的!
结合bulk RNA-seq和scRNA-seq数据分析,鉴定和验证基于恶性细胞亚群标记的胃腺癌多基因风险评分
背景
胃腺癌 (STAD) 是最常见的胃癌类型,也是第五大最常见的癌症类型,是全球第三大致命癌症。STAD患者的不良预后与多种因素相关,包括有晚期临床表现、遗传异质性和强耐药性。根据不同的分类系统可将其分成不同的亚型,如根据Lauren分类系统可将STAD分为弥漫型(低分化)、肠型(高分化)和混合型三种亚型。在TCGA中则根据基因组特征将STAD划分为四种亚型,分别是EBV阳性 (9%)、微卫星不稳定 (MSI) (22%)、基因组稳定 (20%) 和染色体不稳定 ( 50%)。肿瘤异质性包括时间和空间上两个层面,时间上的异质性是指从肿瘤早期进展到肿瘤晚期的异质性,而空间上的异质性则是指不同部位肿瘤的异质性。结合scRNA-seq数据可以从单细胞层面更好的揭示肿瘤的异质性。
数据来源和方法思路
1. 数据来源
Bulk RNA-seq:GEO数据库中的四个数据集GSE66229、GSE113255、GSE84437 和 GSE26942;TCGA数据库中的bulk RNA-seq数据,包括375 个STAD和32个正常组织,即文中的TCGA-STAD。
ScRNA-seq:GEO数据库中的GSE134520数据集。
2. 方法思路
全文研究思路大致可以分为三部部分,首先是通过对bulk RNA-seq数据的分析鉴定出胃腺癌中恶性细胞和非恶性细胞的标记基因,然后就是利用标记基因对scRNA-seq数据中的细胞类型进行分类,通过聚类分析得到不同的恶性细胞亚群,以筛选出不同恶性细胞亚群的标记基因。最后又回归到bulk RNA-seq数据的分析上,利用cox回归构建风险预测模型,最后再利用数据集加以验证。
结果
1. 鉴定恶性细胞和非恶性细胞标志基因
本文首先是对所收集的三个bulk RNA-seq数据集分别做差异分析,图2A-C中分别展示了这三个数据集中差异基因的整体情况。具体而言,就是在GSE66229数据集中,共鉴定出14224个DEG,其中有7799个基因上调和6425个基因下调。在GSE113255中,共鉴定了8669个DEG,上调基因为7473个,下调基因为1196个。在TCGA-STAD中,共鉴定出13353个DEG,上调基因和下调基因分别为 7077个和6276个。对这些差异基因按上调和下调分组分别取交集,发现这三个数据集中的上调基因和下调基因存在很大的差异(图2D-E),所以必须筛选出在大部分样本中都稳定差异表达的基因才能作为标记基因用于后续分析。简而言之,研究人员首先根据单个数据集中的log2(倍数变化)对DEG进行排序,然后对三个排序后的列表进行综合排序,最后根据p值排序,将前 50个显着上调的基因视为恶性细胞标志基因,将前50个显着下调的基因视为非恶性细胞标志基因。图2F-H中的三个热图分别展示了这100个基因在三个数据集的肿瘤和正常样本中的差异表达情况。
此外,对三个数据集中的上调和下调基因的交集进行KEGG分析发现,上调基因所富集的通路主要包括细胞周期、p53信号通路等,而下调基因所富集的通路主要是氧化物酶体增殖物激活受体 (PPAR) 信号通路、胃酸分泌和 AMPK 信号通路(图2I-J)。
2. 早期胃腺癌的肿瘤异质性
根据前面所筛选出的恶性细胞及非恶性细胞的标记基因,可进一步利用胃腺癌的scRNA-seq数据进行肿瘤异质性分析。通过软件包SCINA在3771个质控合格后的细胞中共鉴定出了2506个恶性细胞、63个非恶性细胞以及1202个未知类型细胞(图3A)。但基于前文中所鉴定的100个标记基因对这些细胞进行PCA分析,发现这三类细胞并不能被很好的分开(图3B)。于是研究人员单独将其中2506个恶性细胞进行亚群聚类,以便进行后续分析,聚类后一共得到9个细胞亚群(图3C),图3D中展示了前5个标记基因在这9个亚群中的表达情况。
恶性肿瘤中具有高度异质性的细胞群,研究不同细胞群中的分化轨迹和相应基因可能有助于阐明癌症发展的分子机制。研究人员通过Monocle R包对恶性细胞进行拟时间分析,发现其分化轨迹包括七种状态(图4A)。图4B中展示了分支表达分析模型 (BEAM) 中前100个显著差异表达的基因热图。
现在我们已知恶性细胞中包含有九个细胞亚群,那这九个细胞亚群之间又存在什么区别和联系呢?研究人员接着通过GSEA分析阐明了这九个细胞亚群之间的功能差异性。比如细胞cluster0中显著富集PI3K/AKT/MTOR信号和氧化磷酸化,而cluster1似乎具有更强的蛋白分泌能力,因为这类细胞显著富集出了蛋白分泌相关标记基因;Cluster2的下调基因与G2M检查点、E2F靶标等相关,cluster3可能与DNA修复相关。胰腺β细胞的标记基因、通过核因子κβ的肿瘤坏死因子α信号、炎症反应和同种异体移植排斥的显著富集分别出现在了cluster5、6、7和8中。结合拟时间分析,结果发现肿瘤内异质性出现在STAD的早期阶段,可能是耐药性产生的原因之一。
3. 基于细胞标记的多基因风险评分预测胃腺癌预后
文章的最后一部分是构建风险评分模型及其验证,具体是怎么进行的呢?我们一起来学习一下。首先研究人员结合前文中通过bulk RNA-seq数据所确定的恶性细胞标记基因和scRNA-seq中所确定的9个恶性细胞亚群的标记基因在TCGA-STAD数据集中进行单变量cox分析,得到38个与OS显著相关的基因,最后筛选出其中的10个基因用于后续构建多基因风险评分 (PRS),PRS与OS显著相关(图5A)。ROC分析显示PRS在预测患者5年内OS的效果不错(图5B-C)。此外,PRS也与患者的PFS相关,若根据中位PRS将STAD患者分为高危组和低危组,且与低风险组相比,高风险组患者的OS(图5D)和PFS(图5E)都更短。通过PRS和常规临床病理特征的多变量Cox分析可知,PRS是一个独立的预后因素(图5F)。
研究人员还将PRS与OS相关的常规临床病理因素相结合来构建用于预测OS率的列线图模型(图6A),以便更好地预测STAD患者的预后。OS在1-3年的校准曲线表明预测和观察之间具有良好的一致性(图6B-D)。
最后便是对PRS的验证。研究人员采用三个数据集(GSE84437、GSE66229和GSE26942)用于验证 PRS 的预后价值,验证结果与预期一致,且效果不错,发现高风险组患者的OS比低风险组患者短(图7)。
小结
肿瘤内单一化的数据类型分析套路早已被人熟知,所以本文的研究人员巧妙的将传统的bulk RNA-seq数据与目前比较热门的单细胞数据分析相结合。通过简单的差异分析在bulk RNA-seq中鉴定出标记基因再用于scRNA-seq数据中的分析,最后再回归到bulk RNA-seq的cox分析以构建预测模型并加以验证。通读全文我们不难发现,这篇文章的整体思路和分析方法并不难,而且数据也都来源于公共数据,也没有湿实验的验证。巧妙结合多种数据,常规套路分析发文章其实也并不是那么难。
参考文献
Zou Q, Lv Y, Gan Z, Liao S, Liang Z. Identification and Validation of a Malignant Cell Subset Marker-Based Polygenic Risk Score in Stomach Adenocarcinoma Through Integrated Analysis of Bulk and Single-Cell RNA Sequencing Data. Front Cell Dev Biol. 2021 Oct 18;9:720649. doi: 10.3389/fcell.2021.720649. PMID: 34733840; PMCID: PMC8558465.