美国Regeneron遗传学中心Manuel A. Ferreira、Gonçalo R. Abecasis等研究人员合作完成对454,787名英国生物库参与者的外显子组测序和分析。该项研究成果于2021年10月18日在线发表在《自然》杂志上。人类遗传学的一个主要目标是利用自然变异来理解改变基因组中每个蛋白质编码基因的表型后果。在这里,研究人员使用外显子组测序来探索英国生物库研究中的454787名参与者的蛋白质变异及其后果。
研究人员发现了1200万个编码变异,包括大约100万个功能缺失和大约180万个有害的错义变异。当这些基因与3994个与健康相关的性状进行关联测试时,研究人员发现有564个基因与性状相关。在全基因组关联研究(GWAS)中,罕见的变异关联富集在位点上,但大多数(91%)独立于常见的变异信号。研究人员发现了一些与肝病、眼病和癌症相关的风险增加相关的特征,以及与高血压(SLC9A3R2)、糖尿病(MAP3K15, FAM234A)和哮喘(SLC27A3)的风险降低相关的特征。6个基因与脑成像表型相关,包括2个与神经发育相关的基因(GBE1, PLD1)。在一个独立队列中,81%的可复制信号得到了确认;此外,在欧洲、亚洲和非洲血统的个体中,联想信号通常是一致的。研究人员阐明了外显子组测序识别基因性状关联的能力,阐明了基因功能和精确定位效应基因,这在规模上是GWAS信号的基础。
人类遗传学的一个主要目标是利用自然变异来理解基因组中每个蛋白质编码基因的后果。为了实现这一目标,英国生物库(UKB)外显子组测序协会对454787名UKB参与者的外显子组进行了测序,如前所述,95.8%的目标碱基覆盖深度在20或20以上。研究人员在18893个基因的编码区域的3900万个碱基对中发现了1230万个变异(表1),其中99.6%是罕见变异(小等位基因频率(MAF<所有血统的1%)。该目录比TOPMed4和gnomAD5联合数据集包含的编码变异(950万常染色体变异)高出约1.3倍,比UKB通过填充(160万常染色体变异,信息得分 > 0.3);在被识别的变量中,有3,457,173(每个个体的中位数为10,273)同义,7,878,586(每个个体9,292)错义和915,289(每个个体214)推定功能丧失(pLOF)变量(表1),其中约一半在本数据集中只被观察到一次(单变量;约23%(1,789,828)的错义变异被5种预测算法预测为有害的。这种独特的编码变异目录,结合庞大的样本量和数以千计的可用表型,为大规模评估基因功能提供了独特的机会。
GWAS用于寻找与疾病或者特定性状相关联的SNP位点,为了更加有效的挖掘信息,GWAS需要大样本量和高密度的SNP分型结果,最佳的分型方案当然是全基因组测序,然而成百上千个样本的全基因组测序其成本依然是巨大的,目前更加经济有效的方案是GWAS芯片,针对特定人群,利用tag SNP的思想设计探针,覆盖的SNP位点在几十M的数量级。
相比全基因组测序,GWAS芯片确实更加经济,但是其缺点也是显而易见的,只能够分析挖掘已知的SNP位点,而且位点数据量相对较少,要知道一个全基因组测序分析得到的SNP位点在几百M左右。为了解决这个问题,科学家提出了基因型填充的思想。
genotype imputation,称之为基因型填充,基本思想是利用单倍型来推断芯片未覆盖到的SNP位点的分型结果,在家系数据和独立样本的分析中都适用。家系样本基因型填充的过程示意
部分样本具有较为完整的SNP分型结果,依据这些样本的分型结果构建在家系样本中共享的单倍型,对应图中方框标记的完整分型结果,针对基因型缺失的样本,根据亲缘关系推断该样本可能的单倍型,对于基因型缺失的位点,直接使用对应单倍型中的分型结果进行填充。
独立样本的基因型填充过程示意如下
GWAS通常不能阐明基因功能本身,因为
大多数蛋白质编码变异不能通过填充获得;
要确定与常见的非编码变异相关的特定基因和机制并非易事。
为了阐明通过全外显子组测序(WES)数据分析阐明基因功能的潜力,研究人员测试了罕见的pLOF和有害的误感变异之间的关系,以及UKB研究中测量的3994个与健康相关的特征。这包括3702个二进制特征(至少100个病例)和292个来自不同领域的定量特征,包括人体测量学。大约一半的性状是不常见的,人群患病率在0.1%至1%之间。使用REGENIE中实施的全基因组回归方法进行关联分析,该方法解释了相关性,群体结构和多基因性,并使用快速,近似Firth回归方法的二元结果。通过对每个基因中改变蛋白质的变异进行分组的基因负担测试,分别对变异进行单独和综合测试。
研究人员首先分析了欧洲血统个体的WES数据(n = 430,998;大约95%的样本大小),重点关注pLOF(包括停止增益、移码、停止丢失、开始丢失和必要的剪接变异)和MAF高达1%的有害错义变异。研究人员测试了18,811个基因中每个性状和个体变异之间的关联,以及每个基因变异的聚集,将pLOF或pLOF和有害的错义变异联合考虑在内。总的来说,研究人员进行了大约23亿次关联测试(补充表5),没有证据表明种群结构或未建模的相关性对结果有实质性影响(补充图3、4)。研究人员发现了8865个显著关联,涉及564个基因。在P 2.18 10 11处,492个性状和2,283个基因性状对,这对应于多次检验的Bonferroni校正(即P 0.05/ 23亿检验;在这个阈值上,0.05的关联信号在整个结果集上都是偶然出现的)。正如研究人员后来所显示的,这些关联中有8059个(91%)不能用与附近常见变异的连锁不平衡(LD)来解释,此外,81%的可用和可复制关联在一个独立但较小的队列(n = 133,370个个体)中得到了证实。补充数据2提供了所有8865个关联,以及两个非冗余集,它们是通过保留最重要的信号获得的:
每个基因性状对(2,283个信号);
或者,在564个先导基因关联中,415个是由于负担信号(典型聚集的单核苷酸多态性(SNPs)和indel), 149个是由于单个罕见变异。在这149个基因中,20个与indel变异相关,129个与单核苷酸变异(SNV)相关。fda批准的药物的基因靶标在相关基因中是常见的3.6倍比其余基因更重要(18,317个中的345个)。
发现的大量关联为理解人类蛋白质改变变异的表型后果和确定治疗靶点提供了机会。由于不可能详尽地描述所有的新基因关联,研究人员从四个广泛的变异组中选择了突出的例子:
(i)单例变异;
(ii)降低风险的变异;
(iii)在数量性状上具有有利影响的变异
(iv)变异可能是体细胞起源的。
这些分组说明了UKB外显子组资源的价值,以及研究人员的数据对进一步发现和分析的潜力。
研究人员首先关注在考虑单例变异负担时发现的69个信号,这代表了最罕见的变异类型,并且使用现有的参考面板仍然远远超出基因分型阵列和填充的范围。将表型与基因中单细胞的负担联系起来,是人类遗传学中将基因与疾病联系起来的最具说服力的方法之一。这69个基因中的每一个平均与5.7个(大部分相关)性状相关,总共有393个关联。据研究人员所知,这69个基因关联中有15个以前没有描述过,其中研究人员强调。首先,染色质重塑器EP400中pLOF单例变异的携带者握力较低,与敲除小鼠的结果一致,敲除小鼠也表现出周围神经病变和严重的中枢神经系统脱髓鞘。其次,编码内质网膜蛋白的RRBP1的单例pLOF变异与载脂蛋白B的低水平相关,以及低密度脂蛋白和总胆固醇水平的相似降低。与此一致的是,小鼠中Rrbp1的沉默改变了肝脂稳态,导致极低密度脂蛋白的生物生成减少。
对罕见变异进行关联分析的一个主要动力是鉴定功能缺失变异与较低疾病风险相关的基因,因为这些基因可能是阻断抗体或其他抑制模式的有吸引力的目标。然而,权力保护协会认同罕见变异很低(扩展数据图2)。与此一致的是,我们发现只有五个基因与疾病的风险较低的结果在之前报道中:PCSK9、APOB、APOC3对高脂血症的保护作用ABCG5和胆石病;IL33和过敏性疾病。
然而,值得注意的是,在阈值上观察到另外11个保护性关联,包括6个先前报道的(涉及ANGPTL3、IFIH1、DBH、PDE3B、SLC22A12和ZNF229)和4个潜在的新基因。第一个是SLC9A3R2和高血压风险较低,收缩压也有很强的相关性,收缩和舒张压作为数量性状进行分析,SBP关联在discoverehr队列中复制。SLC9A3R2编码NHERF- 2,这是一个功能连接的肾脏表达的支架蛋白,通过与钠/氢交换剂相互作用,在功能上连接到钠吸收。与SLC9A3R2中低频错义变异的关联先前在血压GWAS中被发现,但该信号归因于PKD1中附近的变异。研究人员发现,SLC9A3R2中罕见的pLOF负担和有害的错义变异,以及Arg171Trp,在PKD1中调节Arg2200Cys后,仍与收缩压、舒张压和高血压高度相关。该信号与钠平衡在调节血压中的作用是一致的,表明阻断SLC9A3R2可以为控制血压提供一种手段。功能性和临床研究评估这种可能性是有必要的。
第二个新的关联是儿童哮喘风险的降低与SLC27A3中罕见pLOF和有害错义变异的负担之间的联系。首先,一种罕见的pLOF和有害的错义变异的负担也与血液嗜酸性粒细胞计数降低相关,是过敏性哮喘中具有关键效应功能的细胞类型。其次,在discoverhr队列中,哮喘和嗜酸性粒细胞计数具有一致的保护性关联。SLC27A3编码一种能激活长链脂肪酸的酰基辅酶a合成酶,在动脉、脂肪和肺组织中表达最高,在肺癌中表达上调。
第三个新的关联是在PIEZO1中的错义变异和静脉曲张风险降低。研究人员之前的研究表明,该基因中罕见的pLOFs会使下肢无症状静脉曲张的风险增加4.9倍,这种关联现在被估计为2倍,大约8倍的数据。OR = 0.66,,提示该错义变异可能具有功能获得效应。这一点很重要,因为它表明,PIEZO1可能为一种没有可用药物干预的常见疾病提供治疗途径。
最后,第四个新的关联是MAP3K15和对2型糖尿病的保护之间的关系,下面将更详细地讨论。在这四种新的保护关联中,只有两种(SLC9A3R2和PIEZO1)在P < 10−7 分析TOPMed输入数据。
与疾病性状相关的保护性关联的低产量与与疾病相关的数量性状(如体重指数)的观测结果形成对比,后者通常为遗传研究提供更大的动力。具体来说,研究人员发现了131个基因,它们对数量性状的影响方向与对疾病风险的有益影响一致。例如,研究人员在ASGR1中发现了与较低载脂蛋白B水平相关的低频蛋白改变变异。ASGR1单倍不足曾被报道可降低心血管疾病的风险,这一观察结果支持了抗ASGR1单克隆抗体作为降脂治疗药物的临床开发。
作为另一个例子,研究人员发现较低的血清葡萄糖水平与FAM234A,与常见变异无关。值得注意的是,FAM234A中一个常见的内含子变异与2型糖尿病的低风险相关,并与一个调节型变异共定位,在多个组织中降低FAM234A的表达。与此一致的是,研究人员发现FAM234A中罕见的pLOFs与自我报告的糖尿病风险降低36%相关。总的来说,罕见和常见变异的结果都涉及FAM234A,一种功能未知的基因,在糖尿病的病因中。
然后,研究人员确定是否有其他基因的例子,既对数量性状有利,又与相关疾病具有保护性(即使低于阈值)联系,就像在FAM234A中观察到的那样。为此,研究人员对131个数量性状的关联信号进行了遗传相关(rg)估计,然后选择rg最显著的疾病。如果有的话,研究人员只考虑在多次检测校正后rg显著的疾病。例如,嗜酸性粒细胞计数与哮喘匹配(rg = 0.37),眼压与青光眼匹配(rg = 0.66);总的来说,研究人员发现129种性状关联的匹配疾病。使用这种方法,研究人员发现有13个基因与一种与基因相关的疾病有保护性关联,经过多次测试校正后,这种关联显著; 在这些研究中,研究人员强调了MAP3K15中蛋白质改变变异的负担与血红蛋白A1c较低水平之间的联系,降低血糖和对2型糖尿病的保护。此外,在discoverehr队列中有支持所有三种表型的证据:A1c,葡萄糖和2型糖尿病。MAP3K15编码一种广泛表达的、参与凋亡细胞死亡的丝裂原活化蛋白激酶20,据研究人员所知,该蛋白激酶在2型糖尿病中未被发现。
在492个性状中,至少有1个显著的罕见变异关联,其中20个值得注意,因为它们涉及2个或更多的基因具有罕见变异信号,但没有来自GWAS的常见变异信号。值得注意的是,这20个性状中有7个是髓系白血病,脓毒症(4个基因)和5个额外的血液相关性状,大多数相关基因先前涉及不确定潜力的克隆造血。这些CHIP基因的相关变异与年龄密切相关,推测杂合子中支持该变异的reads比例通常小于35%或大于65%。与这些关联一致,是通过血液源DNA的外显子测序确定的体细胞突变驱动的。
研究人员接下来调查了在欧洲群体中确定的关联在其他祖先中共享的程度。为此,研究人员使用来自UKB队列的10348名南亚人(SAS)、9089名非洲人(AFR)和2217名东亚人(EAS)的WES数据进行了关联分析。当研究人员关注564个非冗余关联(即每个基因最强的关联,484个与数量性状相关,80个与二元性状相关),研究人员发现数量性状的大部分关联在祖先之间是共享的,但二进制性状的关联较少,这可能是由于低权。对于数量性状,在SAS个体中,83%的关联在AFR个体中,73%的关联在EAS祖先个体中,74%的关联在方向上是一致的,当考虑与 P ≤ 0.05的关联时,增加到92%以上。对于二元性状,在SAS中有61%的关联,在AFR中有61%的关联,在EAS中有64%的关联观察到一致效应。当考虑到全部8865个关联时,研究人员观察到了类似的模式。然后研究人员询问是否在非欧洲祖先中发现了任何新的关联,并发现了4个在欧洲唯一的分析中没有发现的基因(G6PD, HBQ1, OR51V1和RGS11)。
我们试图使用来自Geisinger discoverehr队列22 (n = 133,370个欧洲血统个体)的外显子组测序数据来复制相关性。如上所述,为了便于解释结果,我们重点研究了在UKB队列中发现的欧洲血统个体的564个基因性状关联的非冗余集合,并确定是否可以在DiscovEHR中识别出匹配的性状。在我们试图复制的279种基因性状关联中,193种(69%;二元性状有28个,数量性状有165个)在名义上显著(p≤ 0.05),在方向上也一致,而随机预期约有7个(279 0.05 0.5)。当只考虑212个具有至少80%复制能力的基因性状的子集时,复制率为81%(212的172个)。补充数据2提供了在discoverhr中可用的所有关联的复制结果(8,865个关联中的4,083个),其中70%在名义上是显著的,并且在方向上是一致的。
如上所述,将表型与基因中罕见编码变异的负担联系起来,是人类遗传学将基因与疾病联系起来的一种令人信服的方式。正如研究人员在补充说明中所显示的,当更详细地剖析负担相关性时,研究人员发现:
在单变量分析中,大多数(77%的7,449)关联不能被检测到,这表明它们通常被多个变量支持;
将MAF高达1%的变量聚集在一起的负担测试发现了更多数量的总体显著关联,但在排除MAF在0.1%和1%之间的变量后,其中大多数仍然显著,表明更大的产量可能是由在一个单一测试中捕获跨越广泛等位基因频率的关联信号的能力来解释的;
在同一测试中,结合pLOFs和有害的错义变异在更允许的MAF阈值时逐渐变得更有价值。这些结果证明了执行各种负担测试发现遗传关联的效用。
复杂性状遗传关联研究的一个主要挑战是通过GWAS确定的数千个位点的效应基因。为了解决罕见变异关联可能有助于定位效应基因的可能性,研究人员对492个具有罕见变异关联的性状进行了GWAS,并确定了共107,276个与常见变异(以下简称GWAS哨兵变异)的独立关联。正如补充说明中更详细的描述,通过结合GWAS和WES数据的结果,研究人员发现:
在同一性状中,罕见变异关联通常在GWAS哨兵变异的1 Mb以内(8,865,74%);
当研究人员使用GWAS常见变异信号时,大多数罕见变异关联仍然显著;
显著的罕见变异关联(调节GWAS信号后)为11.4倍,更常见的基因位于1 Mb的GWAS高峰,当研究人员只关注基因最近GWAS哨兵变异浓缩达到59.4倍(图1)。
这些结果显示强劲的常见变异重叠信号从GWAS和罕见的变异信号exome-wide研究,这表明,罕见的变异负担信号将识别数千个GWAS位点的效应基因。
为了说明上述发现的相关性,研究人员突出显示了168个基因,它们在最接近GWAS哨兵变异体的基因中观察到显著的罕见变异体关联。这表明这些很可能是GWAS信号的效应基因。作为一个例子,研究人员发现GWAS信号血清水平的维生素D, 其中5罕见的负担蛋白修改变异基因的最近的GWAS峰值也与维生素D水平。其中,研究人员强调了与HAL的联系,据研究人员所知,这是以前没有报道过的。维生素D合成的第一步是在皮肤中进行的,需要紫外线的照射。HAL很可能在这一步骤中发挥作用,因为它编码一种酶,将组氨酸转化为反尿酸,反尿酸是一种主要的吸收紫外线的发色团,聚集在角质层中。因此,HAL的失活预计会降低表皮最外层阻挡紫外线的能力。与这种可能性一致,研究人员发现HAL中罕见的pLOF和有害的错义变异的负担与更高水平的维生素D、更容易皮肤晒黑和更高的光化性角化病和非黑色素瘤皮肤癌的风险相关。这些发现得到了性状降低与一个共同变异的关联的支持,该变异与一个表达数量性状位点共定位,该位点增加了皮肤组织中HAL的表达。这些结果涉及维生素D水平和皮肤癌的HAL,并强调了一个等位基因系列,包括罕见的功能丧失的蛋白质改变变异(性状增加)和常见的表达增加的非编码变异(性状降低)。
目前,UKB的大脑成像部分包括来自36,968个人的磁共振成像(MRI)的2077种表型。研究人员分别分析了这些数据,给出了大量的性状和相对较小的样品量,测试了与上述GWAS信号条件下的罕见变异的关联。研究人员发现6个基因有84个关联:AMPD3、GBE1、PLD1、PLEKHG3、STAB1和TF。在这些研究中,研究人员强调了弥漫性脑区域的低灰质白质对比(GWC)测量与PLD1中有害的错义变异,一种能催化磷脂酰胆碱水解为磷脂酸和胆碱的酶,已被证明在突触形成中有作用。GWC是一种模糊灰质和白质脑区界限的测量方法,被认为是组织完整性和髓磷脂降解的局部变化的指标,白质中的水分含量增加,或铁沉积。较低的GWC与衰老和较低的认知指标有关,同时也与轻度认知障碍向痴呆转化的比率增加有关。与这一发现相关,在附加的46个与脑成像表型相关的阈下基因中,4个基因对GWC有较大的性状降低作用,其中2个基因在髓磷脂的形成和维持中有明确的作用,这与破坏这些基因功能的变异与低GWC之间的关联一致。相反,在ST6GALNAC5,该基因可催化GM1b在大脑中生物合成神经节苷脂。这与目前的证据相一致,即大脑中特定神经节苷脂的相对丰度会随着年龄和常见的神经状况而改变。研究人员在补充说明中讨论了与其他基因(GBE1、PLEKHG3、STAB1和TF)的显著相关性。
在研究人员评估从UKB参与者3中测序的前49960个外显子时,当考虑所有50万研究参与者的外显子数据时,研究人员使用了β -二项模型来预测包含杂合子pLOF变异的基因数量。在目前的样品量中,观察到的和预测的数量非常吻合。以研究人员当前的数据集为基线(包括所有祖先),当外显子组序列数据可用时,研究人员扩展了研究人员的预测,以估计包含罕见pLOFs (MAF 1%)的基因数量:研究人员预测,18035、17853和8376个基因将分别产生至少50、100和500个杂合pLOF携带者。同样,研究人员预测,当考虑到500万个测序个体时,2630个、997个和529个基因将分别有至少10个、50个和100个纯合pLOF携带者。UKB队列主要由欧洲血统的个体组成,因此一个重要的问题是,这些预测是否也适用于祖先更多样化的人群。为了解决这一问题,研究人员预测了pLOF携带者的数量,预计在500万个人中(i) 46000个来自英国UKB的欧洲血统的人;(ii) 46000名英国人,包括23000名欧洲血统和23000名其他血统的人(10,000名南亚人、9,000名非洲人、2,000名东亚人、1,000名西班牙裔或拉丁美洲人以及1,000名混合血统的人)。研究人员发现,基于更多样化的样本集的预测略高于仅来自欧洲数据集的估计。
参考文献
Backman, J.D., Li, A.H., Marcketta, A. et al. Exome sequencing and analysis of 454,787 UK Biobank participants. Nature 599, 628–634 (2021). https://doi.org/10.1038/s41586-021-04103-z
在未来的几年里,研究人员希望所有UKB参与者都能获得全基因组序列数据,从而能够将对罕见变异的分析扩展到基因组的其余部分。研究人员的数据可以对即将到来的基因型推断资源的价值进行早期评估,基因型推断是一种广泛使用的策略,用于增加基于阵列的关联研究的能力、完整性和可解释性。