《Cell》上的生信分析!!!
这篇文章发表在期刊《Cell》上的,文章的质量不言而喻。在最近一年的影响因子为41.582。中科院大类: 生物学 1区,中科院小类: 1区 生化与分子生物学。这项研究证实了主调节蛋白提供的分子逻辑整合了许多不同的和患者特异性突变的影响,以实现特定肿瘤亚型的转录状态,从而极大地扩大了可能对相同治疗做出反应的患者的比例。更具体地说,这项新的研究表明,更大比例的患者可能对靶向主调节蛋白的新药物有反应,而不是寻找靶向与越来越小的患者亚群相关的突变基因的药物。
背景知识:
综合基因组分析,利用基于网络的方法,确定了407个主调节蛋白(MR),这些蛋白质负责将癌症基因组图谱(TCGA)中20个队列的个体样本的遗传学归入112个转录上不同的肿瘤亚型。MR蛋白可以进一步组织成24个泛癌,主调节模块(MRB),每个模块都调节关键的癌症标志,并在多个队列中预测患者的结果。
结果解读:
(A).主调节蛋白(MR)蛋白(如MR1-MR12)在上游途径蛋白(如P1-P5)中整合了基因组改变(小红球)和异常旁分泌和内分泌信号(小蓝球)的影响。此外,它们还通过激活和抑制的靶标(分别为红色和蓝色边缘)调节细胞的“下游”转录特性--表现为基因表达特征,基因表达从最低(蓝色)到最高(红色)。Passenger改变(小黑球)和不影响细胞转录特性的改变发生在下游效应器(例如P7)中,这不影响MR活性的蛋白质(例如P6)。MR蛋白形成严格自动调节的模块化结构(肿瘤检查点),负责控制癌细胞转录特性的动态平衡。
(B).肿瘤检查点由多个子模块结构组成,称为MR块(MRB),它们调节特定的肿瘤标志,并在不同的亚型中被反复检测到。作为说明性示例,示出了包括三个不同MRB的肿瘤检查点。
(C).MOMA算法的概念性工作流程图。
在每个队列中,通过使用集群可靠性分数(CRS)来确定最佳集群数量。当然,肾透明细胞癌(KIRC)的五组解决方案是一个说明性的例子,包括第5组(最差)和第3组(最佳)的不同结果。
(A).MOMA确定的队列亚型,从最低的子宫内膜癌(UCEC)到最高的结肠腺癌(COAD),最佳亚型的数量(x轴)。解决方案的最佳性由网点的大小和颜色表示,较大、较红的网点代表较高的平均CRSS。选定的解决方案用黑色十字标记。通过Kaplan Meier分析,最好和最差星团之间的存活间隔的统计意义显示在代表-Log10p的蓝色条旁边。虚线表示p=0.05。
(B).小提琴曲线图,表示通过基于MR(蓝色)或基于表达式(红色)的聚类分析推断的用于最佳聚类解决方案的20个TCGA组织类型(x轴)中的每一个的轮廓得分概率密度(y轴)。红线虚线表示标准统计显著性阈值(SS=0.25)。
(C).TCGA肾透明细胞癌队列(KIRC)基于MR的聚类热图。行代表肿瘤检查点MR蛋白,而列代表单个样本。色标与蛋白质活性成正比(红色激活,蓝色失活)。
(D).S5亚型(红线)与S3亚型(绿线)患者生存的Cox比例风险分析(p=1.1310×10-16)。
肿瘤检查点被定义为具有最小MR谱系的模块,通过引导上游通路中的基因组事件来实现肿瘤的转录识别。因此,自拍者使用饱和度分析将MOMA分析产生的亚型特异蛋白的初始排序列表提炼为一小部分候选MRs,这些候选MRs最好地解释了亚型的遗传格局。
单独的曲线显示了当n从1增加到100时,在nMOMA推断的MR蛋白顶端上游确定的每个样本中每个亚型的功能基因组事件的平均比例。零假设(即,从1253个无统计学意义的调控蛋白(所有MOMA排序的蛋白的下半部分)中随机选择n个MRS)产生的饱和曲线显示为灰色。按肿瘤检查点MRS所占遗传事件比例的降序对队列进行排序。为保持视觉清晰度,最后五组以扩展的y轴比例显示(0%-50%)
这幅图展示了37个最频繁激活的MR蛋白,根据饱和分析,这些蛋白使mR15 MOMA推断的亚型(黑色细胞)的基因改变效应变得通道化。行表示按其亚型特异性活性聚类的MR蛋白,以突出在相同聚类(例如,FOXM1和CENPF)中共激活的MRS,而列中显示MOMA推断的亚型,按肿瘤类型分组。矩阵的左侧显示了每个MR基于其异常激活的子类型的数量的重复排名,而子类型的数量显示在右侧,以条形图的形式显示。在矩阵的左侧显示每个MR的重复等级,在矩阵的左侧显示其异常激活的子类型的数量,在右侧以条形图的形式显示子类型的数量。
与从2,506个调控蛋白中随机选择的相同大小的蛋白质集进行比较,对现有分子相互作用网络的分析证实,肿瘤检查点代表着超连接模块。
图4.基因组改变失调的Coad肿瘤检查点
(A-D).OncoPrint图显示了COAD中S2/S3(MSIHigh)(A和 B)和S5/S6(MSS)(C和D)亚型上游的基因组改变。仅显示SCNA焦点事件。水平直方图和百分比显示出包含特定事件类型的样本的比例。垂直直方图显示在每个样本中检测到的事件数量。对于SCNAs,每一行对应于一个独立的细胞带,由功能上确定的癌蛋白/肿瘤抑制因子(STAR方法)识别。蓝色标记只在一个亚型中检测到基因改变,而在另一个亚型中没有检测到(即S2对S3或S5对S6),橙色标记显示不成比例的改变在不同的亚型中出现,而红色标记显示S2中的错配修复基因。
(E).S5中变化的OncoPrint图,包括地区性(即非重点)SCNA中的变化,多数受影响的事件用红色标签显示。
(F).基因组事件类型的图例
(G-J).Coad亚型S2(G)、S3(H)、S5(I)和S6(J)的基因组饱和曲线。垂直虚线表示饱和阈值。
作者根据Achilles计划的数据进一步评估了推断的肿瘤检查点MRS是否富含必要的蛋白质。具体地说,通过蛋白质活性分析鉴定了与MOMA推断的亚型最佳匹配的细胞系。然后根据匹配细胞系中的Achilles评分来评估其重要性。
为了评估MRB是否可以对患者的预后进行分层,作者使用了以MRB活动为预测因子的Lasso Cox比例风险回归模型。这20个TCGA队列中有16个可以有效地分层,与肿瘤检查点分层相比,p值通常有很大的改善。
按肿瘤类型分组,热图显示MOMA阴性转录亚型的MRBS激活(ON)和失活(OFF)有统计学意义(P<10-3)。颜色饱和度与统计学意义成正比(MRB MRS的平均蛋白质活性),参见色标图例。乳腺癌(BRCA)和黑色素瘤(SKCM)亚型分别被标记为突出MRB:7和MRB:24的差异激活,也被突出显示。水平直方图显示具有显著激活(红色)和非激活(蓝色)块的子类型的总数,也显示数值以便于清晰。
.MRB MRS及其转录靶点(Benjamini-Hochberg和超几何检验的假发现率[FDR]<0.05)中肿瘤标志物的丰富确定了与每个MRB显著相关的标志物。顺序基于行和列之间的共同聚类,以突出相关特征。
.MRB:7活动对Metabric乳腺癌队列中的生存进行分层(p=3.53×10-8;Kaplan Meier)。
.在TCGA黑色素瘤队列中,MRB:24活性显著影响患者的生存(p<1.93×10-5)。与MRB:7相比,MRB:24的活性越高,预后越好,这与其作为炎症和免疫感应标志物的作用一致。
为了验证基因改变对MRB活性的影响,作者选择了MRB:2,它是所有亚型中最频繁激活的。通过正则化Cox回归,MRB:2在TCGA中产生了一些最大的结果回归系数,成为不良结果的最重要的预测因子之一。
A)热图显示TCGA前列腺癌队列(PRAD)基于MR的聚集性,分为7个分子上不同的亚型,如图2C所示。
(B)Gleason评分频率按亚型分层。
(C)按亚型划分的生化复发情况。
(D)MRB基因富集:2个在S1和S6亚型间差异表达的标志性基因,经t检验分析排序。每个标记中的基因以黑色刻度表示,统计显著性由基因集富集分析计算(p<2.23×10-16,即低于最小可计算显著性)。
然后,作者想探索MRB活性和相关功能是否可能受到药物调节。作者重点研究了MRB:14,它的活性在建立和维持激素介导的腔上皮特性和细胞黏附表型方面起着至关重要的作用。
(A).功能验证分析的概念图。用慢病毒非靶向对照载体和含有shRNA发夹的慢病毒载体感染雄激素非依赖性22Rv1前列腺癌细胞,沉默MRB:2上游有预测的、反复发生的基因组事件的基因。然后用稳定沉默的克隆细胞进行体外和体内实验。
(B).对每个沉默条件(列)中的8个MRB核心组蛋白(行)进行VIPER分析。总体MRB:2差异活性的意义如上所示。
(C).在创伤愈合实验中评估22Rv1细胞的迁移情况,分别于伤后24小时(对照组)、48小时和72小时观察对照细胞对22Rv1细胞的沉默,一式三份。
(D).迁移试验的定量。条形表示迁移百分比(空隙面积与T=24小时相比)±平均值的标准误差(SEM)。两个发夹的P值经Fisher‘s法积分(*p<0.0 5,**p<0.001,经单尾t检验)。
(E).Boyden小室侵袭实验定量,一式三份。条形代表浸润细胞的比例。两个发夹的扫描电镜p值用Fisher‘s法进行积分(**p<0.001,单尾t检验)。
(F).功能性,用于肿瘤致癌效应的活体验证。移植了对照组和沉默的22Rv1细胞的小鼠的肿瘤生长曲线最长可达35天。在活体分析中,三个重复和误差条代表±SEM;*p<0.001和**p<0.001,用双尾、双向方差分析。
(G).显示选定药物扰动(列)对MRB活性影响的热图:24小时的14个MR蛋白(行)。根据剂量反应曲线,药物名称后面是其EC20浓度。热图顶部的颜色条表示平均MRB:14差异活动的重要性。
(H).药物治疗后DU145细胞迁移实验的改良,以激活MRB:14,在药物治疗后24小时进行评估。
(I).在减去DMSO处理的细胞中的任何剩余间隙面积后,通过沿间隙积分测量R3图像来定量平均间隙面积(间隙剩余)。剩余间隙百分比是相对于0小时时的图像计算的。误差条表示±SEM。
全文小结:
本篇范文作者通过使用整合多组学数据的MOMA算法,在调节肿瘤特性的蛋白质和诱导其异常活动的基因组改变之间建立更直接的联系。从分析中发现的细粒度亚型结构揭示了一种高度模块化和重复性的调控结构。最终通过亚型特异性、组合激活或失活24个主调控模块(MRB)来实现。