在我们分析单细胞数据时,同一类型的细胞往往来自于不同的细胞周期阶段,这可能对下游聚类分析产生影响。今天给大家分享的是一篇发表在Nucleic Acids Research(IF:16.971)上的文献,描述了一种新型的确定单细胞所处细胞周期的方法:CCPE。
CCPE:scRNA-seq 数据的细胞周期拟时间估算[1]
背景介绍
细胞周期简介
细胞周期(cell cycle)是指细胞从第一次分裂结束产生新细胞到第二次分裂结束所经历的全过程,分为间期与分裂期两个阶段。最重要的两个特点就是DNA复制和分裂成两个一样的子细胞。细胞周期一般包括四个阶段,分别是G1期、 S期、 G2期和M期(如下图所示)[2]。在单细胞数据的细胞周期分析时,通常只考虑三个阶段:G1、S、G2M(即把G2和M当做一个阶段)。
scRNA-seq与细胞周期
目前已经开发的根据细胞的转录谱确定细胞周期阶段的计算方法可以分为两大类,分别是knowledge-based(基于先验知识)和unsupervised(无监督)。基于先验知识的方法主要包括scran包的cyclone函数和Seura中的 CellCycleScoring 函数,利用注释的细胞周期基因来估算每个细胞在 G1、S 或 G2/M 阶段的分类。无监督方法主要包括Cyclum和 CYCLOPS等。
cyclone
scran包[3]中的cyclone函数是利用“marker基因对”表达来对细胞所在周期阶段进行预测的方法。简单来说就是将单个细胞的转录谱作为输入,并提取有关细胞周期标记的信息。然后使用训练数据集中这些基因的表达谱来训练一种算法,该算法可以计算独立数据集中单个细胞的细胞周期阶段。cyclone函数主要需要三个元素:一个是sce单细胞对象表达矩阵,一个是pairs参数,还有一个是gene.names参数(详细说明可见说明文档http://bioconductor.org/packages/release/bioc/manuals/scran/man/scran.pdf)。
CellCycleScoring
Seurat包[4]是单细胞分析最常用、功能最强大的R包,我们可以用其中的CellCycleScoring函数根据其G2/M和S期标记基因的表达为每个细胞计算一个所处周期的分数,而不表达这些标记基因的细胞可能处于G1期。同时将S和G2/M分数,以及G2M,S或G1阶段中每个细胞的预测分类情况存储在metadata中。如果设置参数set.ident = TRUE, CellCycleScoring可以将Seurat对象中每个细胞的分组信息设置为其所处的细胞周期阶段。
Cyclum
Cyclum[5]是基于python的一种算法,将Cyclum应用于消除细胞周期效应有利于更好的描绘细胞亚群特征,这对于建立各种细胞图谱和研究肿瘤异质性非常有用。简而言之,Cyclum利用一种自动编码器技术分析细胞基因表达矩阵,该技术将细胞投影到非线性周期性轨迹上,与使用线性方法(例如 PCA)相比,可以更准确地确定周期性过程中的细胞。 Cyclum 可根据基因表达动力学与推断的周期性之间的匹配程度来识别与周期性过程相关的基因。
CYCLOPS
CYCLOPS[6]是利用进化守恒和机器学习识别高维数据中的椭圆结构来推断细胞所处的细胞周期,具体步骤是首先在 X 和 Y 维度上绘制了两个具有共同频率的周期性异相基因的表达,在 Z 维度中描绘时间,然后用随机索引替换时间信息绘制相同的表达式数据,再在表达式空间中绘制相同的数据,这里会形成一个椭圆,最后确定数据集中样本的相对时间顺序。
构建CCPE 数据使用
结果
1. CCPE方法概述
研究人员在这项研究中开发了CCPE,一种新的细胞周期拟时间估算方法,应用于从单细胞 RNA-seq数据中表征细胞周期时间。具体步骤首先是数据的标准化和预处理(公式:log2(FPKM|TPM|Counts + 1)),然后通过在原始维度和降维维度之间迭代优化直到收敛,来学习判别螺旋。优化后,使用具有两个基因维度的3D螺旋来表示细胞周期阶段的循环信息,并使用一维信息来表示单细胞的细胞周期拟时间。总而言之,CCPE就是将高维 scRNA-seq 数据映射到三维空间中的螺旋上,其中2D空间用于捕获 scRNA-seq 数据中的周期信息,而一维空间用于预测细胞沿细胞周期的时间顺序,即细胞周期拟时间(图1)。
2. 细胞周期拟时间的估算
研究人员通过将CCPE应用于多种下游分析和不同数据分析中,以证明其准确估算细胞周期拟时间和阶段的能力。首先是比较CCPE和目前已被使用的一些算法在预测细胞周期拟时间方面的性能,包括Cyclum、CYCLOPS 和 reCAT。结果发现CCPE 和 Cyclum 都可以正确判断的细胞周期顺序,即从G1到S,再到G2/M。 CYCLOPS和 reCAT也都可以很好地区分G1和S期,但不能在S期之后以正确的顺序表征 G2/M期。与 Cyclum 相比,CCPE在区分S和G2/M时期方面表现出更好的性能。研究人员又计算了CCPE推断的基因表达和细胞周期拟时间的Pearson相关性。Aurora激酶 A (Aurka)、polo 样激酶 1 (Plk1) 和 karyopherin alpha 2 (Kpna2)与细胞周期假时间的相关性最高,且这三个酶都与细胞周期密切相关。同时又发现与细胞周期拟时间相关性最高的基因是 G2/M 期标记基因,它们都在 G2/M 期高度表达。见图2。
3. 细胞周期阶段的判断
研究人员接着比较了CCPE将细胞匹配到正确细胞周期阶段与其他模型的能力,这里采用了七个分类指标来评估模型的性能。CCPE在分析mESCs Quartz-Seq数据集中表现出了出色的性能,在所有方法中聚类指标值最高(图3A)。 同时,CCPE在分析E-MTAB-2805 mESCs数据集中的能力也表现出色,所有单个指标评分均排名第一(图3B)。
4. CCPE 在分析小型 scRNA-seq 数据中的性能
为了评估 CCPE 在具有不同数量基因和细胞的数据上的性能,尤其是只有少量基因和细胞的数据集,因此研究人员对包含247个细胞的人类胚胎干细胞单细胞数据集进行了评估。从中选择了七个具有不同数量基因的子数据集,范围从 50 到 600 个基因,以及五个具有不同细胞数量的子数据集(范围从10到100个细胞)。结果发现 CCPE 和 Cyclum的所有聚类指标的中位数随着基因数量的增加而逐渐增加(图3C),而且CCPE 在七个聚类指标方面始终优于 Cyclum。与 Cyclum 相比,CCPE在较少数量细胞的数据集中也具有更好的性能。随着细胞数量的增加,CCPE的性能逐渐下降并最终稳定下来(图3D)。
5. 基于推断的细胞周期阶段的差异表达基因分析
不同细胞周期阶段基因的差异分析可以识别不同细胞周期阶段之间的基因表达的差异性。基因富集分析结果表明,CCPE鉴定的DEGs主要参与细胞周期通路,并富集在 p53信号通路、孕酮介导的卵母细胞成熟和昼夜节律等生物细胞周期相关过程中。 但Cyclum所 鉴定的 DGEs则与细胞周期关系不大(图4A)。图4B中显示了四个G2/M 期标记基因 Plk1、Bub3、Cdc20 和 Fzr1的表达情况看,它们都在细胞周期途径中富集。研究人员又进一步研究了这些差异表达的基因是否与细胞周期相关,进一步证实了CCPE在预测细胞周期阶段和识别细胞周期相关基因方面的准确性(图4C-D)。
6. CCPE 在处理 scRNA-seq数据丢失事件中的性能
由于scRNA-seq 数据总是受到许多技术噪声源的影响,会导致出现大量的缺失值,所以研究人员利用三个模拟数据集来评估CCPE 在处理数据丢失方面的稳健性。随着数据丢失率的增加,CCPE分离三个细胞周期群的性能逐渐下降。可以看到,当丢失率小于51.1% 时,CCPE 的表现明显优于 Cyclum 和 CYCLOPS。但当丢失率增加到68.8%时,CCPE、Cyclum 和 CYCLOPS在估算细胞周期阶段时的表现都不佳。总体而言,CCPE的聚类评价指标值仍然高于Cyclum和CYCLOPS。上述分析可以表明CCPE 比 Cyclum 和 CYCLOPS的性能更加(图5)。
7. 利用CCPE分析Nutlin 处理细胞系数据
为进一步评估CCPE的性能,研究人员将其应用于经过或不经过 Nutlin处理的癌细胞细胞系数据集。Nutlin是一种 MDM2-p53 抑制剂,可诱导细胞周期停滞。利用CCPE 推断经过 DMSO 和 Nutlin处理的 24 种癌细胞系的细胞周期阶段,与DMSO处理的对照组细胞相比,CCPE检测到 Nutlin 处理的 G1 期 TP53 WT 细胞数量增加(图6A)。于是研究人员筛选出7个TP53 WT细胞系的数据并计算每个细胞周期阶段的细胞数比率,结果发现G1期细胞显著增加,这证实与未处理的对照相比,Nutlin可以在TP53 WT 细胞中引起明显的 G1 停滞(图6B)。之后研究人员又利用Deseq2 来识别与 CCPE推断的细胞周期阶段相关的DEGs,这些DEGs的富集结果与细胞周期有关,例如细胞周期进程的调节和细胞周期 G2/M 检查点等(图6C)。上述结果进一步说明了CCPE 在估算细胞周期阶段的准确性以及在成功检测Nutlin处理的TP53 WT细胞中 G1 停滞的可靠性。
8. 从 scRNA-seq 数据中去除细胞周期效应
因为不同周期阶段的细胞可能具有完全不同的表达谱,这会掩盖不同细胞类型之间的表达差异,并影响细胞类型的鉴定和scRNA-Seq数据后续的功能分析。所以在文章最后,研究人员还评估了CCPE 在消除细胞周期效应方面的性能。在去除细胞周期效应后,CCPE可以正确分离两种表型,并且与原始数据相比,数据集中的两种表型之间的差异更加明显。见补充图 S11。
总结
在这项研究中,作者开发了一种名为CCPE的新型细胞周期拟时间估算方法,以准确表征scRNA-seq数据中的细胞周期时间。一些细胞周期估计方法只使用细胞周期基因,如cyclone, Seurat和reCAT。cyclone应用数千个细胞周期基因对来确定细胞的细胞周期阶段。而Seurat,只有少数S期标记基因和 G2M 期标记基因用于识别细胞周期阶段。reCAT利用Cyclebase3中列出的378个细胞周期基因来获得基因表达矩阵,其他基因则被排除在外。CCPE则是在预处理过程中使用一种称为dpFeature的复杂方法来选择差异表达的基因,dpFeature是从数据中发现的重要的再经过排序的基因,而不是依赖于文献中的细胞周期标记基因。CCPE是一种无监督机器学习方法,不需要特定细胞类型或单细胞测序方法特定信息作为输入。因此,CCPE可用于分析各种 scRNA-seq 数据。感兴趣的小伙伴可以去尝试一下了~
参考文献