最新十月发表的癌症亚型分类方法,小编带大家一起解读这篇发表在《Briefings in Bioinformatics》(if=11.622)上的文章。目前肿瘤亚型的发现已成为肿瘤学研究的热点。将癌症患者划分为不同的亚型可以为不同的患者提供个性化的治疗。高通量技术也为癌症分型提供了多种组学数据以供处理。在许多算法中,多视图数据的集成被用来识别癌症亚型,即使使用相同的数据,也可以获得相同癌症的不同亚型。但是我们可以发现不同方法得出的这些亚型在一定程度上是相关的,这可能对肿瘤亚型的划分有一定的指导意义。那么如何有效利用不同亚型的有价值信息来产生更准确可靠的亚型呢?这篇文章中研究者提出了一种基于加权集成稀疏潜在表达(subtype-WESLR)的算法分析异质性组学数据,用来精准的检测癌症亚型。
小编解读:
这个研究中,作者利用加权集成策略将不同分类方法得到的癌症亚型聚类作为先验信息进行融合,subtype-WESLR算法在保持原始样本特征空间的局部结构和加权集成一致性的同时,将每个数据类型的每个样本特征轮廓投影到公共子空间,并通过迭代方法优化其公共子空间来识别癌症亚型。
作者在各种合成数据集和来自TCGA的8个公共多视图数据集上进行实验,结果表明,subtypes-weslr通过集成现有方法的聚类来获得更精确的子类型,是一种优于其他方法。
具体内容:随着高通量技术的发展,癌症基因组图谱(TCGA)等大型项目的各种基因组的公共数据可以被我们用来分析。TCGA提供了30多种癌症的同源样本的基因表达、miRNA表达和DNA甲基化等异质性组学数据,为研究癌症的发生发展提供了前所未有的机会。但是研究表明,单一的数据类型,如基因表达,只能在一个特定的分子水平上描述一个生物学过程,为亚型提供不完整的信息,并不能捕捉到癌症的细微之处。但来自不同生物学领域的不同数据类型提供了不同的、部分独立的和互补的基因组视图。因此,有了许多计算方法结合多组学数据来发现癌症亚型。其中
LRAcluster算法:通过对数字、计数和离散特征的分布进行概率建模,将每个样本的多个异质性组学数据连接起来,但这种集成没有考虑不同组学中数据的不同分布和维数诅咒。结合生物数据的一个常见策略是对每个数据类型单独聚类,并整合它们不同的聚类分配。
PINS算法:通过为每个数据类型建立一个样本连接矩阵,将连接矩阵合并成一个合并的患者相似性矩阵。然而,这种集成忽略了数据类型之间微弱但一致的相关性。一些统计方法对每种数据类型的分布进行建模,然后使多组数据的可能性最大化。
iClusterBayes算法:通过使用几个贝叶斯潜在变量来实现联合降维,从而捕获多个组学数据的内在结构。然而,这些方法受到多组数据假设的限制。此外,由于特征数量较多,这些方法还需要进行特征选择。基于相似性的多组数据方法[15 17]避免了这个问题。
相似性网络融合(SNF):为每个omic建立一个样本相似网络,并基于消息传递将这些样本网络融合为一个单一的组合网络。
模式融合分析(PFA):考虑了多组数据与联合降维的集成,通过自适应优化策略将来自每个数据类型的局部样本模式融合成与表型相对应的完整样本模式。
Subtype-GAN:一种深度学习应用于分子数据处理和分析的方法。利用多输入多输出神经网络精确建模复杂组学数据,并使用共识聚类和高斯混合模型识别肿瘤样本分子亚型。由于亚型的不确定性,对于同一种癌症,方法可能会有不同的亚型,甚至使用相同的多组数据,这对癌症亚型有一定的指导意义。
那么如何有效地利用不同亚型的有价值信息,生成更准确、更可靠的亚型?本研究中,提出了一种集成方法可以利用一些预先选择的聚类方法获得较好的聚类结果。每一种输入聚类方法通过计算每一对父节点的支持边来构造一个图,通过对这些图进行集成来构造一个集成图,并应用于基于模块化质量的图聚类。基于稀疏子空间学习框架,这种集成聚类方法,称为“weighted ensemble sparse latent representation”(Subtype-WESLR)。它通过分析多个异质性组学数据,同时考虑其他方法得到的癌症亚型,从而识别癌症亚型。这些模型将每个数据类型的每个样本特征轮廓投影到与子空间一致性相对应的公共潜在子空间中,该子空间应保持原始样本特征空间的局部结构,并与集成聚类保持一致,即保持局部结构的一致性和基指标的一致性。并通过迭代优化公共子空间来识别癌症亚型。
subtype-WESLR不同于其他集成方法,在每个视图上分别应用不同的聚类算法,或者对不同聚类算法的基层分区一视同仁,subtype-WESLR直接将聚类算法应用于多视图数据,获得基聚类作为先验信息。此外,在不同的基聚类中自适应地应用权重集成来获得最优组合。再经过实际数据的验证后,研究人员发现这种研究方法是优于其他方法的,加权集成聚类可以获得更准确、更可靠的子类型来发现子类型。
subtype-WESLR亚型分类方法的优势:
(i)考虑不同方法的加权集成聚类,目的是利用已识别的不同子类型的有价值信息作为先验知识,生成更精确的子类型。
(ii)开发子类型- weslr来学习多视图数据之间的稀疏潜在表达,以便发现子类型,假设输入视图是由共同的潜在表达生成的。为了保持各数据类型的局部结构一致性和加权集成聚类指标的一致性,引入了多视图拉普拉斯正则化。
(iii)在合成数据上的实验表明,subtype-WESLR在不同噪声和不同基聚类数下发现共同模式方面具有优势。在TCGA数据集中的8个公共多视图数据集上进行的实验表明,subtype- weslr捕获的癌症子类型比其他方法更可靠。
算法研究:
多视图数据的稀疏潜在表达
假设有n个样本(如患者)和m个视图(如miRNA, mRNA, DNA甲基化)。第p个视图数据表示为矩阵x Xp ∈ Rdp×n (p = 1, 2, ..., m),其中dp为第p个特征矩阵的特征个数。将多组数据投影到一个共同的潜在子空间F ∈ Rn×c(F ≥ 0),该子空间可以通过最小化得到
||F和c分别为范数和簇数。Gp∈ Rdp×c是第p个视图特征矩阵的投影矩阵,其元素代表特征的权值,且非负,即i.e. Gp ≥ 0。
利用L1-范数对投影矩阵Gp进行正则化,刻画稀疏性,并引入正则化参数λ>0. FTF = I确保F是一个指标矩阵,其中I是单位矩阵。目标函数(1)可表示为
接下来我们探讨之前提到的局部结构异质性:
多组数据的局部结构一致性
通过合并多视图数据,共享的稀疏潜在子空间应保持原始特征空间的局部结构,可以使用多视图拉普拉斯正则化来保持局部一致性。对于每个特征矩阵Xp,我们利用高斯核函数构造一个带元素的图模型S(P)
(如果xp(j)是xp(i)的最近邻k值,则取第一个;否则为0)
其中xp(i)和xp(j)为第p个特征矩阵的样本向量,σ为xp(i)和xp(j)之间的欧式距离(欧几里德距离)。设D(p) 是一个对角矩阵
,则图拉普拉斯矩阵L(p) 可定义为
因此,对于F,保持原特征空间局部结构一致性的多视图拉普拉斯正则化可以重新表述为
其中权系数αp平衡了第p个特征空间中图拉普拉斯矩阵对预测的贡献。因为r1>1,保证所有的图拉普拉斯矩阵都有助于识别子类型。
不同聚类的基础指标一致性
不同方法得出的亚型在一定程度上与同一肿瘤相关,对肿瘤亚型有一定的指导意义。基集群的集成对于子类型的发现是有意义的。
假设有一组基本聚类结果,其中指标矩阵 Yq ∈ Rn×cq (q = 1, 2, ..., NQ ) 由q基聚类算法(如SNF、iClusterPlus和PFA)生成,其中cq和NQ分别为q基算法中的聚类个数和基算法的个数。如果样本i属于Yq中的第j个聚类,则对应的元素Yq(i, j)设为1,否则Yq(i, j)设为0。对于每个基聚类矩阵,用元素构造一个图模型S(q)
(如果样本i和j在第q基聚类算法中属于样本聚类则为1,否则为0)
同理,设D(q) q是一个对角矩阵,其中
,则图拉普拉斯矩阵L(q) q可定义为
我们可以从每个基聚类中提取有用的信息,其中矩阵L(q) 可以看作是一个样本网络的指示。加权集成指标可以自适应增强底层子空间F的一致性,对于F不同聚类的基本指标一致性可以通过
其中,权系数βq平衡了q基聚类方法对预测的贡献。可以保证所有的基本聚类方法都有助于使用r2 > 1来识别子类型。
加权集合稀疏潜在表示
结合(5)和(8),通过联合自适应加权拉普拉斯正则化,得到保持局部结构一致性和基指标一致性的稀疏潜空间F
σ<0用于平衡特征矩阵和基本集成聚类结果。权重系数αp(p = 1,…, M)和βq(q = 1,…, Nq)两者都可以自适应地获得。结合(2)和(9),我们可以写出subtype- WESLR为
其中,μ >是正则化参数。
subtype-WESLR的解决
我们通过交替迭代更新来优化目标函数,得到(10)的解,如补充材料中分析的那样。我们将αp和βq的初始值分别设为1/m和1/NQ,并优化F和Gp的值;然后依次更新αp和βq。利用乘法更新规则,我们得到了F、Gp、αp和βq的更新后规则:
其中e元素1*dp的向量都是1。在补充材料中引入σ来约束FTF = I。L(+), L(−), B(+), B(−), A(+) p , A(−) p ,B(+) p and B(−)p被定义为
应用更新规则(11-14),研究人员证明了子类型weslr的优化是趋于一致的。当应用subtype- weslr求解目标函数(10)时,可以使用指示矩阵F进行癌症亚型识别,其中矩阵F中每一行的最大值所在的列为一个癌症亚型的聚类指数。{αp}mp=1和{βq}NQ q=1分别引用了每个视图特征矩阵和每个基聚类算法对预测的贡献。基于上述优化过程,在算法1中总结了subtype-WESLR。
结果:
试验设置
参数设置
计算拉普拉斯矩阵时,两个自由参数k和θ的合理范围分别为{10,15,20,25,30,35}和{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}。正则化参数μ和λ分别在{0.0001,0.001,0.01,0.1,1,10}和{0.001,0.01,0.1,1,10}范围内。参数r1、r2、σ与权系数αp、βq有关,r1、r2在{2,3,5,10,100,1000}范围内,值越小性能越好。σ在{0.1,1,10,100,1000,10000}范围内,当σ很大时,αp和βq可以接近1/m和1/NQ。正则化参数δ在{0.00001,0.0001,0.001,0.01,0.1,1}范围内,用于平衡特征矩阵和基聚类算法之间的权重。由于子类型- weslr的收敛性,停止规则设为
或最大迭代次数。
不同聚类算法比较方式
在合成数据和TCGA数据上,将subtype-WESLR与SNF、iClusterPlus、LRAcluster、moCluster、PFA、iClusterBayes、kmeans、spectral clustering、NEMO等相关多视图聚类方法进行了比较。研究人员还在TCGA数据上比较了subtype-WESLR与最近的ClustOmics和subtype-GAN。
评价标准
采用归一化交互信息,即NMI,衡量两个聚类之间的一致性,评估在模拟数据集上的性能。NMI取值范围为0 ~ 1,取值越高越好。通过Cox回归模型的p值和一致性指数(Cindex)比较了subtype-weslr和其他方法在8个癌症队列中的表现,并通过生存分析分析了确定的亚型。值得注意的是,对于每一种方法,都是按照文中的规则设置参数,并对模拟数据或真实数据进行了多次不同设置的测试,试图选择相对较好的NMI或p值。由于数据和参数设置的不同,工作结果可能与其他算法的之前报告不同。
时间复杂度
subtype-weslr的运行时间可分为计算图拉普拉斯矩阵步骤和优化步骤。计算所有基聚类方法和所有组学方法的图拉普拉斯矩阵分别需要O(n2·NQ)和O(dp2·m)。迭代过程中优化计算时间为O(T·(NQ + m)),其中T为最大迭代次数。因此,总时间复杂度为O(n2 · NQ + dp2 · m + T · (NQ + m)).
综合数据分析
基于涉及miRNA、mRNA和DNA甲基化的合成数据集,研究人员将subtype-WESLR与其他方法进行了比较。分别从GEO 数据库中GSE73002、GSE10645和GSE51557中获得miRNA表达、mRNA表达和DNA甲基化数据的多视图数据。由于良好状态数值示例的性能优于不良状态数值示例,采用均值{0,0.25,0.5,0.75}模拟了较差状态下的合成数据,包括200个样本,分别为1-50,51-100,101-150和151-200四个聚类。每种数据类型都可以区分不完全簇,所有数据类型对应于簇{1-50,51-150,151-200},{1-50/101-150,51-100,151-200}和{1-100,101-150,151-200}。SNF、iClusterPlus、LRAcluster和moCluster作为subtype-weslr的基本方法,即基本方法的聚类是subtype-weslr的输入。在模拟数据集上的实验表明,该方法对各种参数设置都具有很强的鲁棒性
比较不同的额外噪音
进行50次实验,分别生成包含0%、20%和30%额外噪声的数据集,即低噪声、中等噪声和高噪声。在模拟中,我们考虑了不同方法获得的聚类与地面真实聚类之间的NMI(表1;补充图S7A)。如表1所示,subtype-weslr优于其他方法,在不同噪声设置下与地面真实簇的一致性方面,而且随着额外噪声的增加,只有很小的f波动。NEMO和iClusterBayes在不同的噪声水平下也相对稳定。PFA表现最差,可能是因为算法对参数很敏感
不同算法的比较
SNF作为subtype-weslr的基聚类方法,对额外的噪声不敏感,仅次于子型weslr。在moCluster和iClusterPlus的噪声下,LRAcluster更好、更稳定,而这两者在识别集群方面都很差。这些基方法的性能与基聚类对subtype-weslr的贡献相对应,即图A中,基方法性能越好,基聚类对子类型- weslr的贡献越大,其中SNF的贡献最大。类似地,图B显示了DNA甲基化、miRNA和mRNA对subtype-weslr的贡献。与DNA甲基化和mRNA相比,miRNA对subtype-weslr的影响最大。
多组数据与单组数据
将光谱聚类分别应用于DNA甲基化、miRNA和mRNA分别命名为SC-methylation、SC-miRNA和SC-mRNA,生成sbutype-weslr作为输入的碱基聚类。图C显示,即使subtype-WESLR采用不同的碱基方法,与单一数据类型相比,多组数据的整合更稳定,miRNA在发现DNA甲基化和mRNA聚类方面更有用,这与图B的观察一致。由于miRNA在光谱聚类方面比mRNA和DNA甲基化有优势,研究人员以上述方法为基本方法,在moCluster、iClusterPlus、LRAcluster、spectral clustering和subtype-WESLR中对miRNA进行了实验。其中的SNF不用作基本方法,因为它不适用于单一数据类型。
结果表明,subtype-WESLR也适用于处理单一数据类型。我们还将任意两种DNA甲基化miRNA和mRNA结合,将subtype-WESLR应用到数据中,分别命名为subtype-WESLR (mRNA+miRNA)、subtype-WESLR (methy+miRNA)和subtype-WESLR (methy+mRNA)。在亚型- weslr (mRNA+miRNA)中,以SC-miRNA和SC-mRNA为基础方法。Subtype-WESLR (methy+miRNA)和Subtype-WESLR (methy+mRNA)采用相似的方法,Subtype-WESLR (methy+mRNA+miRNA)采用SC-mRNA、SC-methylation和SC-miRNA作为基本方法。与两种数据类型的任何组合相比,subtype-WESLR在三种数据类型上表现更好,并表明集成更多高质量的多组数据有助于捕获常见模式。因此,基于多组数据的加权集成基聚类可以使用subtype-WESLR得到更稳定的聚类。
在不同基聚类数下的性能
研究人员还讨论了当不同数量的基聚类作为输入时子类型weslr的有效性(图D)。subtype-WESLR(2)使用moCluster和iClusterPlus作为基本方法,而subtype-WESLR(3)除了使用moCluster和iClusterPlus之外,还使用了LRAcluster,因为LRAcluster的性能优于moCluster和iClusterPlus。在完整模型即subtype-WESLR中,我们使用SNF、moCluster、iClusterPlus和LRAcluster作为基本方法。从图D可以看出,subtype-WESLR优于subtype-WESLR(2)和subtype-WESLR(3),这意味着性能良好的基聚类有助于提高subtype-WESLR的性能。
综合数据的各种实验表明,subtype-WESLR在发现多视图数据的公共模式方面具有优越性。最后,研究人员研究了得到的子类型的一致性。结果表明,subtype-WESLR每次在合成数据上都能识别出一致的子类型。
TCGA数据分析
mRNA是多组数据中最常见和广泛使用的,通过差异表达基因表达谱来识别癌症亚型。microRNA是一种小型非编码rna,可与靶基因mRNA特异碱基互补配对,引起靶基因mRNA降解或抑制其翻译,广泛负调控靶基因表达。如果相关miRNA发生突变,激活相关癌基因的表达或导致抑癌基因的缺失,就会导致肿瘤的发生。DNA甲基化与基因表达密切相关。高DNA甲基化常发生在肿瘤抑制基因的启动子区,低DNA甲基化则发生在癌基因的启动子区。因此,DNA异常甲基化常被用作肿瘤诊断、分类和治疗的重要分子标志物。这些不同的数据类型提供了不同的、部分独立的和互补的基因组视图。研究表明,整合这些多组数据有助于亚型鉴定。
研究人员将subtype-WESLR应用于8个公开可用的TCGA多视图数据集。这些肿瘤包括肾透明细胞癌(KIRC)、乳腺浸润癌(BRCA)、结肠癌(COAD)、皮肤黑色素瘤(SKCM)、肺鳞状细胞癌(LUSC)、多形性胶质母细胞瘤(GBM)、卵巢浆液性囊腺癌(OV)和肝肝细胞癌(LIHC)。每个肿瘤数据集的样本包含以下数据类型:miRNA表达、mRNA表达、DNA甲基化和临床概况。对实验数据进行预处理和归一化处理,以提高实验结果。去除每种数据类型缺失数据超过20%的样本。然后进行归一化,最终得到KIRC 206个样本,BRCA 623个样本,COAD 214个样本,SKCM 439个样本,GBM 271个样本,LUSC 337个样本,LIHC 404个样本,OV 290个样本。由于基因组数据存在很大的冗余,因此我们对每种数据类型分别使用主成分分析(Principal Component Analysis, PCA),同时在数据整合前保持95%的信息。如何确定肿瘤亚型的数量是发现肿瘤亚型的关键。由于比较方法有不同的标准来确定最佳的子类型数量,所以我们不要求每种方法的子类型数量相同。
采用剪影宽度来确定subtype-WESLR的最优簇数,在- 1和1之,该值越接近1,集群越好。根据剪影指数可以得到KIRC的4个亚型,BRCA的5个亚型,COAD的4个亚型,SKCM的5个亚型,GBM的3个亚型,LUSC的5个亚型,LIHC的4个亚型,OV的3个亚型。采用moCluster、LRAcluster、SNF和PFA作为TCGA数据的subtype-WESLR的基础方法。
与以往8个癌症队列研究的比较
如表所示,在大多数情况下,subtype-WESLR在8个癌症队列中发现了生存差异更显著的亚型。结果表明,在大多数情况下,subtype-WESLR可以根据p值获得较高的c指数。将上述三种数据类型Kmeans (methy)、Kmeans (miRNA)、Kmeans (mRNA)、Kmeans (all)分别连接起来,分别用于DNA甲基化、miRNA、mRNA和组合数据。从表可以看出,整合多组数据比单一数据类型更有优势。结果表明,subtype-WESLR在大多数情况下每次都能识别出一致的子类型。为了直观地探讨不同亚型之间的差异,8种癌症的生存曲线如图所示。
针对上述研究,研究人员选择了一种癌症进行进一步研究
KIRC上已识别的亚型分析
对于KIRC,通过Kaplan Meier生存分析确定并分析了subtype-WESLR的4个亚型,kmeans (methy)、kmeans (miRNA)、kmeans (mRNA)、iClusterBayes和kmeans (all), NEMO、moCluster、LRAcluster和SNF的3个亚型,iClusterPlus和PFA的2个亚型。为了研究subtype-WESLR所鉴定的亚型,进行了差异表达分析,以发现mRNA表达和miRNA的表达差异。在名为KIRC-differential-genes的profile中发现了一组差异表达的mRNA,其热图如图所示。差异表达mrna由任意两种KIRC亚型的差异表达mrna组成,因此是所有KIRC亚型的全部差异表达mrna。
我们可以观察到,差异表达的mRNA可以提供任何两个亚型之间的直观区分,这表明已识别的亚型是有意义的和可解释的。为了了解整个差异表达mRNA的生物学作用和潜在功能,研究人员还对差异基因进行了富集分析。
分析其他癌症队列中已确定的亚型
同样,研究人员又对BRCA、COAD和SKCM差异表达的mRNA进行KEGG信号通路富集分析。BRCA的差异mRNA表达集中在tgf - β信号通路、p53信号通路、细胞色素P450代谢外源性药物、细胞周期等KEGG癌相关通路。COAD的差异mRNA表达集中在Wnt信号通路的KEGG癌相关通路和细胞色素P450介导的外源性药物代谢中。SKCM的差异mRNA表达集中在PI3K-Akt信号通路、Hippo信号通路和局灶黏附的KEGG癌相关通路中。
对这些肿瘤相关通路的研究将有助于阐明肿瘤发生、进展和转移的机制以及相关靶向药物的研究。为了验证subtype-WESLR的分型结果是否合理,研究人员根据分子分型和分子特征,将结果亚型与之前BRCA上报道的亚型进行比较。整合不同的组学数据往往会导致不同的分型结果。根据PAM50 RNAseq可将BRCA相关亚型分为luminal-A、luminal-B、her2富集型、basal-like和normal -like。subtype 2和subtype 3对应basal-like和luminal-A, subtype 1对应luminal-B。her2富集和正常样不能很好地与已鉴定的亚型对应,可能是由于样本数量较少。还研究了5个亚型的年龄分布。亚型2的平均诊断年龄最小,低于亚型3,差异有统计学意义。综上所述,BRCA上所鉴定的亚型是合理的,具有统计学解释意义。
文章小结:
癌症是一种复杂多样的疾病,其异质性使得精确的治疗势在必行。这可以通过将癌症患者分为不同的亚型来实现。通过分析与癌症相关的基因组数据来确定癌症亚型的需求越来越大。在很多癌症亚型分类方法被运用之后,本篇文章的研究人员将多种方法结果结合起来,通过多种实验研究和验证得出一种最优方法subtypes-weslr,为之后的癌症亚型提供了一种新思路。