Nature | 454,787 名英国生物银行参与者的外显子组测序和分析

收藏
关键词: Nat测序生物Nature
资讯来源:基因谷
发布时间: 2021-11-22

原文链接:https://www.nature.com/articles/s41586-021-04103-z
 
人类遗传学的一个主要目标是利用自然变异来了解改变基因组中每个蛋白质编码基因后的结果,为实现这一目标,英国生物银行 (UKB) 外显子组测序联盟对 454,787 名 UKB 参与者的外显子组进行了测序。 95.8% 的目标碱基覆盖深度为 20X或更大。 实验使用的是(Integrated DNA Technologies,IDT)公司的外显子组WES产品。 我们在18,893个基因的编码区的 3,900 万个碱基对中鉴定了1,230 万个变异,其中 99.6% 是稀有变异(次要等位基因频率 [MAF] 在所有人种中均<1%)。 该数据库超过了 TOPMed 和 gnomAD合并数据集中包含的编码变异约 1.3倍,并且通过插补算法可将 UKB 中的编码变异增加约 8倍。 在确定的变异中,有 3,457,173个(每个人 10,273 个)同义突变、7,878,586个(每个人 9,292个)错义突变和 915,289个(每个人 214 个)功能丧失(pLOF)变异,其中大约一半在这个数据集中只观察到一次,大约 23% (1,789,828) 的错义突变被五种预测算法预测为有害。 这种独特的编码变异数据库,结合大样本量和数以千计的可观测表型,为前所未有的规模评估基因功能提供了独特的机会。
 
罕见变异关联研究
GWAS 通常不能阐明基因功能本身,因为 (i)大多数蛋白质编码区变异无法通过插补算法获得;(ii) 确定与常见非编码变异相关的特定基因和机制并不简单;为了说明通过分析 WES 数据阐明基因功能的潜力,我们测试了在 UKB 研究参与者中测量的罕见 pLOF 与有害错义变异和 3,994 项健康相关特征之间的关联。这包括至少 100 个案例的 3,702 个二元性状和来自不同领域的 292 个数量性状,包括人体测量学、生物化学和血液学。大约一半的二元性状不常见,人群患病率在 0.1% 到 1% 之间。关联分析是使用 REGENIE 中实施的全基因组回归方法进行的,该方法考虑了相关性、种群结构和多基因性,并使用快速、近似的 Firth 回归方法获得二元结果。通过对每个基因内的蛋白质改变变异进行分组的基因负荷测试,对变异进行单独和汇总测试。
 
我们首先分析了来自欧洲血统个体的 WES 数据(N = 430,998;总样本量的约 95%),重点关注 pLOF(including stop-gain, frameshift,stop-lost, start-lost and essential splice variants)变异和有害 MAF≤1%的错义变异。我们测试了 18,811 个基因中每个性状和单个变异之间的关联,以及每个性状和每个基因所有变异的关联,同时考虑 pLOF 或 pLOF 和有害的错义变异。总体而言,我们总共进行了约 23 亿次关联测试,没有证据表明人口结构或未建模的相关性对结果有重大影响。
  我们在 P≤2.18x10-11(多次测试的Bonferroni 校正)下发现了8,865个显著关联:涉及 564个基因、492个性状和 2,283个基因-性状对。正如我们稍后展示的,这些关联中的 8,059 (91%) 不能通过与附近常见变异的连锁不平衡 (LD) 来解释,此外,81% 的关联和在 N=133,370 个人的独立但较小的队列中得到证实(DiscovEHR 队列)。在 564 个先导基因关联中,415 个归因于基因突变负荷(通常聚合 SNP 和插入缺失),149 个归因于单个罕见变异。
 
本项目确定的大量关联提供了一个独特的机会来了解人类蛋白质改变变异的表型后果并确定新的治疗靶点,由于不可能详尽描述所有新的基因关联,因此我们重点介绍了从四大变异组中选出的示例:(i) 单例变异;(ii) 降低风险的变异;(iii) 对数量性状有有益影响的变异;(iv) 可能的体细胞起源的变异。这些分组说明了 UKB 外显子组资源的价值以及我们的数据在推动进一步发现和分析方面的潜力。
 
 
单例变异的关联分析
我们首先关注在考虑单例变异突变负荷时发现的 69 个信号,这些信号代表了最罕见的变异类别,并且仍然远远超出使用现有参考基因组进行基因分型和插补的范围。表型与基因中单例变异负荷的关联代表了人类遗传学将基因与疾病联系起来的最令人信服的方式之一。69 个基因中的每一个都与平均 5.7 个(大部分是相关的)性状相关,总共产生 393 个关联。据我们所知,这 69 个基因关联中有 15 个以前没有被描述过,其中我们强调了两个。首先,染色质重塑基因 EP400 中单例 pLOF 变异的携带者的手握力较低(96 carriers;
effect=-0.55 SD units, 95% CI -0.68 to-0.42, P=8x10-16),与基因敲击小鼠的结果一致,它们也会出现周围神经病变和中枢神经系统严重的髓鞘形成不足。其次,编码内质网膜蛋白的 RRBP1 中的单个 pLOF 变异与较低的载脂蛋白 B 水平以及低密度脂蛋白和总胆固醇水平的类似降低有关。与此一致,小鼠中 Rrbp1 的沉默改变了肝脏脂质稳态,导致 VLDL 生物发生减少。
 
表1 通过分析单一变异的负荷确定了新的基因关联

 
降低疾病风险的关联分析
对罕见变异进行关联分析的一个主要动力是鉴定功能丧失变异与降低疾病风险相关的基因,因为这些可能代表阻断抗体或其他抑制方式的有吸引力的目标。然而,在 P≤2.18x10-11 时识别与罕见变异的保护性关联的能力很低。与此一致,我们只发现了 5 个基因在 P≤2.18x10-11 时与较低的疾病结果风险相关,所有这些基因都是先前报道的:PCSK9、APOB 和 APOC3 以及防止高脂血症;BCG5 和胆石症;IL33与过敏性疾病。然而,值得注意的是,在 P≤10-7 的更宽松的显著性阈值下观察到了另外 11 个保护性关联,其中包括 6 个先前报告的(涉及 ANGPTL3、IFIH1、DBH、PDE3B、SLC22A12 和 ZNF229)和四个可能是新的。第一个是在 SLC9A3R2 和较低的高血压风险之间。第二个新的关联是较低儿童哮喘风险与SLC27A3 中罕见 pLOF 和有害错义变异之间。第三个新的关联是 PIEZO1 的错义变异(rs61745086、Pro2510Leu、MAF=0.98%)与静脉曲张风险降低之间。最后,第四个新的关联是 MAP3K15 与 2 型糖尿病的保护之间的关联,这将在下面更详细地讨论。在这四个新的保护关联中,在分析 TOPMed 估算数据时,仅观察到两个(SLC9AR2和 PIEZO1)在 P<10-7。
 

图1 在 P≤2.18x10-11 处具有罕见变异关联的 564 个基因的靠前性状关联
 
与数量性状的保护性关联
与疾病特征的保护性关联的低产量与观察到的疾病相关数量特征(例如体重指数)形成鲜明对比,后者通常为遗传研究提供更大的力量。具体来说,我们发现了 131 个基因对数量性状对疾病风险有益。例如,我们发现 ASGR1 中的低频蛋白质改变变异与较低的载脂蛋白 B 水平相关,之前曾报道 ASGR1 单倍剂量不足可降低心血管疾病的风险,这一观察结果支持ASGR1 单克隆抗体作为降脂治疗的临床开发。作为另一个例子,我们发现 FAM234A 中较低的血清葡萄糖水平与 pLOF 变异之间存在关联,排除了该基因多态性SNP的影响。当然之前也发现FAM234A内含子中的一个多态性SNP与降低2型糖尿病相关,与此一致,我们发现 FAM234A 中罕见的 pLOF 与自我报告的糖尿病风险降低 36% 相关,总的来说,罕见和常见变异的结果表明 FAM234A 是一种功能未知的基因,与糖尿病的病因有关。
 
采用类似的方法我们想寻找有没有其他基因既影响数量性状同时也影响疾病,我们发现MAP3K15 中蛋白质改变变异的突变负荷与血红蛋白 A1c 水平较低、偏低的血清葡萄糖、降低的2型糖尿病风险之间的关联,并且这一结果在DiscovEHR队列中也得到了证实,MAP3K15 编码一种普遍表达的丝裂原活化蛋白激酶,参与细胞凋亡,之前的研究未发现该基因与 2 型糖尿病相关。

图2 稀有变异对数量性状有有利影响的基因
 
与体细胞突变的关联
在与至少一个显著性罕见变异关联的 492 个性状中,有 20 个值得注意,因为它们涉及两个或多个具有罕见变异信号的基因,但没有来自 GWAS 的常见变异信号。值得注意的是,对于这 20 个特征中的 7 个包括髓细胞白血病(7 个基因)、败血症(4 个基因)和另外5 个与血液相关的特征,大多数相关基因之前都与克隆造血有关。这些克隆造血基因中的相关变异与年龄密切相关,这些基因的突变丰度通常 <35%,据此推测这些是外周血体细胞突变引起的关联分析。
 
负荷测试各组分的影响
如上所述,表型与基因中罕见编码变异的负荷的关联是人类遗传学将基因和疾病联系起来的一种令人信服的方式。正如我们在补充说明中显示的那样,当我们更详细地剖析负荷关联时,我们发现:(i)大多数(7,449 个中的 77%)关联在单变异分析中无法检测到,这表明它们通常是由于同一个基因上的多个变异导致;(ii) 将 MAF 高达 1% 的变异聚合在一起的负担测试总体上确定了更多的显著关联,但在排除 MAF 介于 0.1% 和 1% 之间的变异后,其中大部分仍然显着,表明广泛等位基因频率的变异可能都有影响;(iii) 在更宽松的 MAF 阈值下,在同一测试中组合 pLOF 和有害错义变异变得越来越有价值。
 
GWAS基因座中的关联富集
复杂性状遗传关联研究的一个主要挑战是鉴定通过 GWAS 鉴定的数千个基因座的效应基因,为了解决罕见变异关联可能有助于确定效应基因的可能性,我们对具有罕见变异关联的 492 个性状中的每一个进行了 GWAS分析。正如补充说明中更详细地描述的那样,通过结合 GWAS 和 WES 数据的结果,我们发现:(i)罕见的变异关联通常在相同性状的 GWAS 哨兵变异的 1Mb 以内;(ii) 当我们以GWAS 常见变异信号为条件时,最罕见的变异关联(8,865 个中的 8,059 个,91%)在P≤2.18x10-11 时仍然显著;(iii) 显著的罕见变异关联(在调节 GWAS 信号后)在位于 GWAS 峰值 1 Mb 范围内的基因中更常见 11.4 倍(95% CI 10.1 至 13.0,P<10-300),当我们只关注最接近 GWAS 哨兵变异的基因时富集度达到 59.4倍(95% CI 51.8 至 68.2)。
 
全外显子测序

基因组 DNA 样品从英国生物银行转移到再生元(Regeneron)公司的遗传学中心,并在样品制备前储存在-80 °C 的自动化样品生物银行中。通过酶法将 DNA 打断至平均片段大小为 200 个碱基对(bp),杂交捕获采用的是(Integrated DNA Technologies,IDT)公司的全外显子(WES)捕获试剂盒(xGen Exome Research Panel)。IDT公司的探针使用全新的“捕获感知”(capture-aware) 算法进行设计,并进行了专有的脱靶分析,确保实现完整的设计覆盖度。所有xGen Lockdown探针均严格按照 ISO 13485 标准进行单独合成及生产,每条探针均经过质谱法和双定量测量检验,确保探针的质量及在探针库中具有适当的代表性。通过始终如一的深度覆盖,致力于推动临床研究。



 
讨论
我们报告了 454,787 名 UKB参与者的外显子组测序的完成情况。我们的数据集现在每个基因平均包含 >600 个编码区变异(平均每个基因包含约 50 个 pLOF)。除了能够研究突变模式和人类人口统计学外,我们的数据集代表了在了解修改基因组中每个基因对健康的影响这一目标方面取得的重大进展。在我们的初步分析中,我们确定了564 个基因的 pLOF 与可能的有害变异与健康结果的关联分析。这些发现表明了许多基因的新生物学功能和潜在的治疗策略,无论是通过酶替代、治疗阻断还是其他方式。我们生成的所有数据都将提供给 UKB 科学界——他们的创造力和努力肯定会扩展这些初步分析。

点击加入基因俱乐部    成就行业精英

目前已有500+行业精英加入基因俱乐部