华盛顿大学中国博后揭示人类和近亲物种的演化遗传基础,即将学成归国加入上海交大

收藏
关键词: 揭示
资讯来源:DeepTech深科技
发布时间: 2022-04-29


“为什么不回国工作呢?身边好多朋友都回国工作了。上海交大 Bio-X 研究院的科研平台很适合自己的研究方向和兴趣。第一,我的研究需要巨大的计算量,而交大的 π2 超算平台对于生物信息学和基因组演化生物学的研究有很大帮助。第二,在贺林老师、师咏勇老师和其他老师的前期工作中,Bio-X 研究院建立了珍贵的精神遗传疾病样本,这些样本可以帮助我进一步了解结构变异同疾病的演化遗传关系。即将回国加入上海交通大学担任长聘教轨副教授的毛亚飞表示。


图 |毛亚飞(来源:毛亚飞

他同时指出,国家对青年老师的支持越来越好,已出现很多青年学者就能申请的项目,这些项目可以保证青年人在职业生涯早期安心地工作。另外,因为这次回国找教职,他也认识了很多老师。他们都在国内工作很久,给了毛亚飞很多帮助和意见, 比如北京动物所的张勇老师、浙江大学张国捷老师、中山大学的吴仲义老师等。

据悉,生态演化基因组学,是毛亚飞的主要研究方向。其中,长读长测序是他常用的技术手段之一。


图 | 毛亚飞实验室主页截图(来源:毛亚飞个人主页, https://www.yafmao.org/)


长读长测序的主要技术路线和优势


长读长测序,从字面上就体现了它的特点——读长比较长。读长,是基因组测序中的一个技术词汇,人类基因组一套染色体是由 ATCG 四个碱基排列组合形成的一个大约 31 亿个碱基对的序列。要想了解这些碱基是怎么排列的,就得通过一定测序手段和计算算法去实现。而长读长测序正是重要的测序手段,想象一下:如果一次读取 1 万个碱基和一次读取 150 个碱基信息,哪一个更容易得到最完整的基因组信息?

换句话说,如果把组装一个基因组理解为拼图游戏,当你拥有同样大小的拼图,是拼图中的每一个小块越小越容易完成拼图还是越大越容易?答案显然易见。

其实,如果基因组序列很简单,那么即使读长再小,也一定能完成基因组组装。但是,人类的基因组很复杂,有很多区域的序列非常相似,科学家把其称为重复序列,目前这些重复序列很难被读长短的测序技术攻破 [1,2]。

再用拼图来做个解释,如果拼图有的地方特别相似,遇到较小图块的时候,在拼接图谱时,就很难获悉图块应该放置的位置。但是,如果图块足够大,那就总能找到两个图块的区别。
就是这么一点点细微的区别,即可获悉图块应该放置的位置。因此,读长长可帮助我们解决基因组上的重复序列。

长读长测序的技术,目前主要来自美国 PacBio 和英国 Oxford Nanopore Technologies(下称 Nanopore ONT)的这两家测序公司。其中,PacBio 自己有多种不同的测序技术,本文主要讨论的是该公司的 HiFi 测序技术。PacBio HiFi 的读长大约 15kB-20Kbp,Nanopore 的读长大约 60Kbp,最长可以到达几个 megabase。PacBio HiFi 的读长稍微短一些,但是它的精度很高,基本上能到达 99.9% 的准确性。Nanopore ONT 的读长长,但是它的精度较差,一般在 90%-95% 左右,当然,ONT 现在也在提高它的精度,目前有数据表明它的 Q20 技术的确能加强测序精度,但是和 PacBio HiFi 相比仍有一段距离。

其实,测序只是一个技术手段,目标主要在于解决生物学问题。这两个技术各有所长,毛亚飞平时都是综合这两个技术的优势来完成一个完整基因组的组装。当然,单独利用这两个技术也可以助力解决不少生物学问题。比如,对于具有较小基因组的微生物,只用 PacBio HiFi 技术就能得到很好的基因组组装,然后就可利用基因组去了解不同微生物的演化遗传区别,甚至进一步去改造这些微生物的基因组,让它们变成我们人类所需要的“工程”微生物。

另外,当已经知道了某些位点存在基因缺失,那就可以用 ONT 去进行深度测序,然后就能看到是否存在基因缺失。ONT 的另一个好处是它可以直接进行甲基化检测,这样就能助力了解重复区域的表观遗传学。


长读长基因测序如何发现基因产生的结构变异、以及如何建立基因结构变异与遗传疾病的关系


长读长技术是研究结构变异的好工具,它能发现的结构变异 70% 在之前都没有被发现到。主要原因还是读长。如果一段基因片段存在缺失,但是这段片段又有一些相似的片段在基因组其他位置,那么短读长序列是不太容易探测到的。

测序的确是很好的技术,但是归根结底要帮助解决生物学问题。其中,在了解人类遗传疾病和结构变异的关系上,长读长测序有着它独特的优势。举例来说,Fragile X Syndrome 是一种可造成智力障碍的遗传性疾病,其最主要的遗传病因是 FMR1 基因上 CGG 序列的大量串联重复所致,从而影响该基因片段的表观调控,抑制了 FMRP 蛋白的正常形成和功能。该病的诊断通常根据 CGG 的重复次数进行判断,过多的重复突变会患病。以前的短读长测序技术并不能很好的解决这些 CGG 重复的片段,有了长读长测序,就能准确测出 CGG 的重复次数,并直接对病人进行直接的分子遗传诊断。

事实上,疾病也是人类的一种表型,而表型这个词放大了思考。从演化角度来看,就能去想象结构变异导致人类演化过程中出现的其他适应性形状的原因。举个例子,人类有一个特有的基因组重复片段,这个重复片段的缺失会导致小脑症,而这个片段的会导致大脑症。这就是结构变异在人类疾病表型中的影响。这个重复片段的缺失会导致小脑症,而这个片段的重复会导致大脑症。这就是结构变异在人类疾病表型中的影响。

而有了长读长测序,就能进一步研究这个重复片段。科学家发现,这个重复片段是人类演化过程中特有的片段,在非人类人猿中并不存在这个重复片段。该片段包含一个人类特有的基因 
NOTCH2NL,这一基因可以调节大脑前体神经细胞的发育,从而导致人类比非人类人猿有着更大的大脑 [3]。因此,结构变异在演化和疾病中非常重要也非常有趣。


对黑猩猩和倭黑猩猩进行基因测序,分析人科进化过程中不同支系的结构变异及其进化历史


毛亚飞此前发表的一篇 Nature 论文《一个高质量的倭黑猩猩基因组改进了人类进化的分析》(A high-quality bonobo genome refines the analysis of hominid evolution )中 [4],他对倭黑猩猩进行了测序分析。


图 | 相关论文(来源:Nature

以人类和非人类人猿的结构变异差异为例,某些结构变异导致了人类的特有性状。其实毛亚飞也在关心非人类人猿的特有形状,他已经找到许多不同谱系上的结构变异,这些结构变异可能改变了蛋白的结构,从而导致蛋白功能的变化,进而导致新功能和表型的产生。

比如,他和合作者发现倭黑星星的 
ADAR1 基因有 49 个氨基酸在倭黑星星中存在特异性删除,该基因和 RNA 编辑、免疫疾病、神经分化有着重要关系。他很好奇这个结构变异是如何改变 ADAR1 在倭黑星星功能的。此外,EIF4A3 基因在 Pan 上有着特异的重复,该基因如果在小鼠中重复,会导致小鼠面部结构的改变。因此,他也好奇在 Pan 中的重复是否会导致人和 Pan 在某些面部结构上的改变?而这些都需要进一步的功能验证。

此外,基因树不一致性也是毛亚飞很感兴趣的一个问题。基因树不一致性是指物种演化关系(物种树)和基因演化关系(基因树)存在不一致性。其中,不完全谱系分选是一个很重要的导致因素。不完全谱系分选是一个随机的演化过程。但是,至于是不是受到不完全谱系分选的基因位点也是随机分布的?


对于这些之前人们并不知道,而在长读长测序的帮助下,他发现类人猿受到不完全谱系分选的基因位点不是一个随机分布,其在基因组上存在聚集想象。其中,21% 的位点更倾向于聚集在一起,同时他也发现这是因为正选择/松弛选择导致的。借此,我们对演化生物学的基本认识得到补充。同时,他也注意到多数这些聚集位点和人体免疫相关功能有关。


回国后将专注于灵长类结构变异与疾病的关系上


回国入职以后,毛亚飞主要想继续研究结构变异在灵长类演化的基本模式、以及它和人类遗传疾病的关系。很多结构变异在演化上的产生是非常复杂的,人类对于它们的理解才刚刚开始。仍以 NOTCH2NL 为例,他特别感兴趣的是人类特有的重复是如何产生的,以及它的缺失和重复是如何导致人类疾病的,以及是不是可以对病人进行分子遗传诊断?对于遗传疾病,我们能否通过产前检测以避免该遗传疾病的产生?进一步,毛亚飞也特别愿意和功能实验室合作,以便研究遗传疾病是否可以进行基因治疗。

除了专注于灵长类结构变异与疾病的关系上,他也对珊瑚的演化很感兴趣 [5,6]。总的来说,其实验室将利用长读长测序技术来构建完整基因组,然后利用高质量的基因组开发一系列结构变异相关的生物信息学软件,随后基于自主研发的软件去研究结构变异的演化和多样性,从而探究结构变异是如何导致灵长类适应性演化和人类遗传疾病的。

目前,其实验室正在招聘研究生、研究助理、生物信息技术员、博士后等,参见
https://www.yafmao.org/。


-End-



支持:张智


参考:

1Nurk, S., Koren, S., Rhie, A., Rautiainen, M., Bzikadze, A. V., Mikheenko, A., ... & Phillippy, A. M. (2022). The complete sequence of a human genome. Science, 376(6588), 44-53.

2Logsdon, G.A., Vollger, M.R., Hsieh, P., Mao, Y., Liskovykh, M.A., Koren, S., ... & Eichler, E.E. (2021). Nature, 593(7857), 101-107. The structure, function and evolution of a complete human chromosome 8

3Fiddes, I. T., Lodewijk, G. A., Mooring, M., Bosworth, C. M., Ewing, A. D., Mantalas, G. L., ... & Haussler, D. (2018). Human-specific NOTCH2NL genes affect notch signaling and cortical neurogenesis. Cell, 173(6), 1356-1369.

4Mao, Y.,Catacchio, C.R., Hillier, L.W. et al. A high-quality bonobo genome refines the analysis of hominid evolution. Nature 594, 77–81 (2021). https://doi.org/10.1038/s41586-021-03519-x

5Mao, Y.*, Economo, E.P., & Satoh, N. (2018). Current Biology, 28(21), 3373-3382. The roles of introgression and climate change in the rise to dominance of Acropora corals.

6Mao, Y.*, & Satoh, N. (2019). Iscience, 13, 20-32. A likely ancient genome duplication in the speciose reef-building coral genus, Acropora.