不到一秒就能完成一次实验预测,纽大中国学者提出高通量计算遗传筛选新方法,助力发现新型染色质调控机制

收藏
关键词: 遗传新方法
资讯来源:DeepTech深科技
发布时间: 2023-02-19

数学和计算机,是谭济民在本硕期间接触最多的领域。直到在纽约大学医学院读博,他才开始研究计算生物学。医学院宿舍的室友是随机分配的,谭济民因此认识了生物背景出身的夏波博士。

前不久,两人合作开发出一款新型机器学习方法 C.Origami(“折质机”),它可以预测特定细胞类型的染色质构象。基于遗传筛选的原理,他们还提出了全新的高通量计算遗传筛选,能用于鉴定细胞类型特异性的功能基因组元件,并能助力学界发现新的染色质构象调控机理。

图 | 谭济民(来源:谭济民)

只需不到一秒,就能完成一次实验预测

此次课题隶属于三维基因组学领域,该领域主要研究 DNA 分子在细胞核中的构象、以及理解基因组如何发挥作用等。

虽然 DNA 本身记录了遗传信息,但是只有 DNA 细胞是无法正常运作的。还有很多其他的因素例如 DNA 甲基化修饰、组蛋白修饰,以及 DNA 结合蛋白比如核小体和转录因子来帮助 DNA 形成特定的结构,并指导细胞的正常基因表达。

通过缠绕在核小体上,DNA 分子会形成染色质,染色质根据所需的细胞功能,可以形成特定的结构。可以说,细胞的生老病死、形态功能都和染色质密切相关。

如果说细胞是一个复杂的机器,DNA 序列就是这个机器的说明书;各类 DNA 修饰可被看作是说明书的注释;而 DNA 结合蛋白则可类比为阅读说明书、并执行的操作人员。

人体内有超过 200 种细胞,这些细胞的 DNA 大体相同,但是每种细胞的功能和形态都不尽相同。这些不同主要源于 DNA 修饰和蛋白的差异,原因在于 DNA 修饰和 DNA 结合蛋白具有细胞类型特异性。在这里,姑且笼统地称作表观遗传特征。相对应的,只跟 DNA 序列有关的叫做经典遗传特征。

对于一个细胞来说,DNA 序列决定了它是否属于人类,而染色质则决定了它的细胞类型,比如它是神经元细胞还是上皮细胞。

继续说回三维基因组学,表观遗传特征和 DNA 在染色质层面的结构有着密切的关系。染色质的结构和细胞活动也是息息相关。因此这个范围,是谭济民做这项课题时的研究重点。

他所研究问题是:通过 DNA 序列和染色质信息,来预测染色质的结构,并探索机器学习模型能否学习染色质和其结构之间的联系。

实验结果证明,机器学习模型不仅可以做到,而且只需不多的训练数据就能实现。

谭济民表示,“折质机”是基因组学中的第一个多模态深度学习模型。在输入信息的同时,可以结合 DNA 序列信息和染色质信息,包括转录阻抑物蛋白的结合信息和 ATAC-seq,借此来表示局部染色质的可结合性。

在架构中,“折质机”使用卷积和自注意力层,来提高自身性能和运行速度。

得益于“折质机”最为关键的创新点——多模态,它只需要在一种细胞的数据上训练,就能将训练过的模型用于不同种类的细胞上,也就是可以“从头预测”。

训练好的“折质机”有三个用途:一是可以预测尚未被测量结构的细胞类型;二是可以帮助人们理解染色质信息和其结构之间的联系;三是基于“折质机”,课题组开发了高通量计算遗传筛选的全新方法,来替代基于传统遗传筛选技术,从而加快人类探索新生物学调控机理的流程。

据介绍,测量染色质结构既费钱又耗时,使用已有技术比如染色质构象捕捉技术时,从收集样品到获得有效结果通常需要几周。

尽管染色质结构包含丰富的信息,但是现有实验技术的不足,限制了它在生物医学领域的大规模应用。

而使用此次开发的模型,可以把局部染色质结构的测量时间缩短到一秒以内。大多数基因调控的实验,都可以使用这款模型进行染色质构象的捕捉。

此前,尽管学界已经测量了很多细胞结构信息,但是人们并未很好地理解染色质和其结构之间的因果关系。

而使用这种训练好的“折质机”模型,可以在电脑里进行扰动,然后观测模型预测染色质结构的变化,从而实现计算扰动实验。只需不到一秒,就能完成实验预测。

(来源:Nature Biotechnology

有望引领生物学的研究范式转变

在遗传学领域,通过高通量反向遗传的筛选方法,可以系统地探索一些基因和某种生物表征之间的因果关系。具体实现方法为:扰动感兴趣的区域,然后观察表征的变化。

这种反向遗传筛选的手段,已被广泛用于生物学领域,人们也借此发现了大量新知识,但是迟迟没有将其用于染色质结构上。

究其原因在于,染色质结构作为生物表征,其测量成本居高不下,因此无法对多个基因组位点的扰动效果,进行高效的平行测量。

鉴于“折质机”可被用于扰动实验,该团队进一步开发了基于染色质结构的计算遗传筛选新方法,借此可以在全基因组里找出和染色质结构有强因果关系的区域。而传统实验方法中,这几乎是不可能的。

(来源:Nature Biotechnology

另外,借助计算遗传的筛选方法,课题组得以发现诸多三维基因组调控机理。例如,他们将遗传筛选用于白血病细胞和正常细胞上,找到了一些会对染色质产生不同影响的区域。

在这些区域中,包含着一些癌变线索。为此,他们进一步使用 CRISPR 筛选生物实验作为辅助,找出了与肿瘤增生和染色质结构均有相关性的新位点。这种方法也可以推广到其他遗传疾病和肿瘤分析上。

概括来说,这款模型可以从头预测不同细胞种类的结构。多模态模型让该团队只使用两种染色质信息,就能达到很好的效果。

(来源:Nature Biotechnology

就应用前景来说,主要有两方面:

对于生命科学领域,该研究提出了新一代高通量遗传筛选方法,能将计算遗传筛选模型替代传统的遗传筛选技术。这不仅可以加速三维基因组学的研究效率,也有望引领生物学的研究范式转变。

对于医学研究与应用来说,该成果可以帮助人们理解疾病的致病机理,尤其是针对肿瘤亚型进行基于预测结构的分类,同时也可用于寻找与三维基因组学相关的药物靶点。

(来源:Nature Biotechnology

盯着基因组浏览器找“蛛丝马迹”

据介绍,这项研究开始于 2020 年秋。谭济民说:“那时我刚开始读博,不久之后和博士五年级的夏波博士(本次论文共同通讯作者)成为了室友。”

一次讨论中,他们想到利用机器学习来预测染色质的结构。谭济民有深度学习的背景,夏波则有生物和基因组学的知识。

于是,他们决定就本次课题展开合作。一开始,他们使用染色质信息来预测结构,并使用卷积对抗生成模型进行测试,但是效果并不理想。后来,他们也尝试了不同模型,但是效果依旧不佳,这让研究陷入第一个瓶颈期。

2020 年冬,谭济民在观察模型的输入信息时,意识到染色质包含的信息量有限,跟夏波讨论后决定加入 DNA 序列。

随后,他们重新构建了多模态模型,同时使用了 DNA 序列、CTCF ChIP-seq 和 H3K27ac 作为输入信息以后,模型终于开始生成有意义的染色质结构矩阵。

这让他们喜出望外,并打算在 2021 年 3 月完成论文初稿。这段时间里,他俩也定下了论文主体框架,包括提出计算遗传筛选的新范式等。

然而好景不长,他们使用多种方法来优化模型,但是预测结果总是非常模糊,有时还存在错误。一旦结果模糊,基于预测的计算遗传筛选试验的大部分结果,就只能产出噪音。2021 年 2 月,课题陷入第二个瓶颈期。

(来源:Nature Biotechnology

2021 年 4 月,谭济民听说同校的 Tsirigos 教授也在研究三维基因组。“我决定去他的实验室做轮转。Tsirigos 教授是生物信息方面的专家。在轮转期间我跟 Tsirigos 教授交流之后发现原来用的输入数据质量有问题,于是我下定决心再次从头开始这个项目。”谭济民说。

后来,Tsirigos 教授推荐使用 ATAC-seq 来替代 H3K27ac 作为输入信息。2021 年 6 月,在重新处理数据并加入 ATAC-seq 之后,模型的性能大幅提升,已经接近实验数据的准确度。至此,他们就开始迭代模型,并通过生物实验来做验证。

2022 年 3 月,课题组完成了论文初稿,但是缺少独到的生物发现。于是,他们请生物实验的合作者提供一些额外的实验数据。谭济民说:“当时想看看能否结合我们的工具,找到新的发现。夏波和我经常在电脑前坐几个小时,盯着基因组浏览器尝试找到一些生物机理的蛛丝马迹。”

2022 年 5 月,通过多轮分析他们果然找到了很多新的生物发现,并对论文初稿予以完善。“我们在 6 月把文章投到了 Nature Biotechnology,经过一轮修改后论文就顺利被接受。”谭济民说。

近日,相关论文以《3D 染色质组织的细胞类型特异性预测可实现高通量计算机遗传筛选》(Cell-type-specific prediction of 3D chromatin organization enables high-throughput in silico genetic screening)为题发在 Nature Biotechnology 上 [1]。

图 | 相关论文(来源:Nature Biotechnology

谭济民是第一作者,亚里士多德·齐里戈斯(Aristotelis Tsirigos)教授和夏波博士为共同通讯作者。

夏波博士于 2022 年在博德研究所(Broad Institute of MIT and Harvard)建立独立实验室,致力于研究调控基因组三维构象的机理及生物学意义。

Tsirigos 博士现为纽约大学精准医疗部门(NYU Langone Division of Precision Medicine)的主管,研究方向为癌症中的三维染色质和机器学习在精准医疗中的应用。

图 | 夏波博士和 Tsirigos 博士(来源:资料图)

从室友到队友

前面提到,谭济民实在认识夏波之后开始了此次课题,背后的故事十分有趣。

2020 年 10 月,谭济民租住的公寓即将到期。正逢博士开学第一年,他准备在当年 11 月搬入纽约大学医学院的宿舍。

那天,谭济民联系了学校分配给他的室友,想提前去看一下房间。下午 5 点左右,谭济民带着尺子来到宿舍,见到了新室友夏波。

寒暄之后,谭济民进房间开始量面积,期间和夏波聊了起来。夏波表示他在做一个关于 Alu 元件(Alu element)的项目,但是对以数学和计算机研究为背景的谭济民来说,完全听不懂夏波有关生物研究的描述。

于是,夏波就开始给谭济民讲 DNA、讲基因组等生物学知识。

谭济民之前做过一些自然语言处理的项目,听到夏波的描述以后,他在想能否把 DNA 当作生物的语言,然后用语言模型来处理。

谭济民说:“我给他也讲了机器学习的一些基本原理和我的想法。夏波虽然没有机器学习的基础,但是他对这个想法也非常感兴趣。”

俩人一拍即合,开始讨论各种构建模型的可能性,并且在餐巾纸上画示意图,等谭济民回过神来准备走的时候,已经是晚上 9 点。

“就这样我们开始了这个项目,现在想起来真是一场非常奇妙的经历:我和夏波都不了解对方所在的领域,但是却能够一边交流、一边构思。”谭济民说。

谭济民和夏波经常会在宿舍厨房里讨论问题,很多时候讨论到热好的午饭最后又要重新加热。谭济民十分感激这个博学的室友,因为这几个月的讨论可能抵得上他上一年的生物课。

除了讨论问题容易忘记时间,谭济民跟夏波都有熬夜写文章的趋势。2022 年初开始写论文的时候,两个人有两天都在实验室写到了第二天日出,以至于他们后来写论文的时候都把“sustainable”(可持续性)挂在嘴边,以督促自己早点睡觉。

回顾研究历程,一次和Tsirigos 教授会议讨论,也让谭济民十分难忘。2022 年初,课题组在完善最后的实验,谭济民想做一个染色体易位的分析,需要用到 Tsirigos 教授几年前在分析染色质软件里开发的一个功能。

谭济民表示:“开会时我问Tsirigos教授这个实验应该怎么做,他让我用电脑连上服务器打开 Vim,然后他凭记忆打出了两行做染色体易位分析的代码。他跟我说:‘你回去试试看,我不确定这个能不能行,毕竟是我六年前写的软件了’。”

回到住处之后,他跑了下Tsirigos 教授写的代码,居然能成功运行。可见 Tsirigos 教授平时虽然很宽松,但是在科研的问题上特别重视细节。

“我觉得也正是因为 Tsirigos 教授对于细节的严苛,才能让这篇论文在最后被顺利接受。”谭济民说。

另据悉,该团队已向美国专利局提交一项相关专利,目前正在审核中。未来,他们将对模型和计算遗传筛选的框架继续加以迭代和完善。

参考资料:

1.Tan, J., Shenker-Tauris, N., Rodriguez-Hernaez, J.et al. Cell-type-specific prediction of 3D chromatin organization enables high-throughput in silico genetic screening. Nat Biotechnol (2023). https://doi.org/10.1038/s41587-022-01612-8

由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅:全球突破性技术创新与未来趋势(20 周年珍藏版)》已开售!点击下方海报可购买图书!!