Science重磅:AlphaFold2从830万蛋白质中挑出了700种「复合物」

收藏
关键词: Science
资讯来源:新智元
发布时间: 2021-11-13




  新智元报道  

编辑:David

【新智元导读】在蛋白质结构预测上,AI革命还在继续。这次是探寻蛋白质之间的相互所用。华盛顿大学新研究确定了1000多种可能发生相互作用的不同蛋白质,并绘制出数百种蛋白质的精确结构。

蛋白质结构预测领域的AI革命仍在继续!

这次的焦点不是蛋白质结构和形态,而是进一步关注不同蛋白质之间的相互作用。
 
一年前,软件程序首次成功地模拟了单个蛋白质的3D形状,其精度与几十年前的实验技术测出的一样准确。几个月前,研究人员使用AI程序编程了一个近乎完整的人类蛋白质结构目录。
 
现在,研究人员更进一步,使用AI技术确定了不同蛋白质之间可能的相互作用,以及由这种相互作用的「复合体」产物是什么样子的。
 

这项新发现会促进细胞生物学领域产生一系列新观点,并为发现下一代治疗药物指明新方向。

从蛋白质结构到相互作用,AI技术立大功


过去几十年来,精确重现人类蛋白质的形态和结构,一直是研究人员的目标。 过去,要追求这个目标是很困难的,需要昂贵且缓慢的实验,比如X射线晶体学和核磁共振光谱学实验。 而且,即使实验取得进展,也只能得到单个蛋白质某些结构。
 
计算机专家一直致力于加快速度。借助AI和深度学习算法,研究人员在过去两年内取得了重大突破。该算法使用实验解决的蛋白质结构数据库来训练软件程序如何根据蛋白质的氨基酸序列预测蛋白质的结构。
 
走在前面的是DeepMind和华盛顿大学。
 
今年7月15日,DeepMind在Nature上发表论文,开源了其基于深度学习神经网络的AlphaFold 2模型。AlphaFold对人类蛋白质组的结构预测,覆盖了98.5%的所有人类蛋白质组,还对20种其它生物蛋白质的结构进行了预测。
 

 
几天后,在Science上,华盛顿大学也发表了自己开发的蛋白质预测工具 RoseTTAFold。RoseTTAFold不仅性能上和AlphaFold 2相当,预测蛋白质结构也「快、狠、准」。
 

这些程序都可以预测出成千上万的蛋白质结构,还为少数已知的蛋白质复合物生成了结构。但在真核生物中,蛋白质之间的相互作用通常还是未知的。
 
为了实现这个目标,两个研究团队都调整了AI程序。

今天,华盛顿大学团队在《科学》期刊发文,使用AI技术工具解决了真核生物中712 种复合物(蛋白质相互作用下的产物)的结构问题。
 

该研究同时使用了华盛顿大学的RoseTTAFold和DeepMind的AlphaFold工具,筛选了830万对酵母蛋白的配对多序列比对,识别出了1505种可能的相互作用,并为 106 个以前未识别的部分和 806 个尚未结构表征的部分构建了结构模型。
 
为了找到可以形成复合物的蛋白质,团队首先将所有6000种酵母蛋白质的氨基酸序列,与 2026 种其他真菌、4325种其他真核生物的氨基酸序列进行比较。
 
在比较过程中,研究人员追踪这些蛋白质的进化过程,并识别出不同蛋白质中同时发生变化的序列。据此推断,这些蛋白质可能会形成复合物,并会逐步改变以保持它们之间的相互作用。
 

团队使用自研的RoseTTAFold 的 AI 程序以及此前DeepMind已开源的 AlphaFold工具,尝试解决每组候选对象的 3D 结构。
 
在总共830万个「候选」酵母蛋白质对中,两个AI工具合力识别出了 1506 个可能发生相互作用的蛋白质,并成功绘制出其中 712个 3D 结构,约占成功识别数的一半。

 David Baker

研究团队核心成员、论文共同通讯作者David Baker和Qian Cong介绍:
 
「这些相互作用涵盖了真核细胞的所有活动。这个研究的亮点在于发现了蛋白质复合物的结构。这种复合物在细胞活动中发挥着不可替代的重要作用。」
 

「比如让细胞修复 DNA 损伤,将RNA翻译成核糖体中的蛋白质,在细胞繁殖过程中将染色体拉开,并将分子运送通过细胞膜等。」
 
同样密切关注这一研究的DeepMind团队,也对这一发现的意义给予了高度评价。
 
John Jumper

AlphaFold工具的首席开发人员John Jumper表示,「这是再现蛋白质3D结构的一个很有前途的研究实例。明白了蛋白质之间如何相互作用,生物学家就可以进一步发现复合物细胞内执行多项任务的机制。
 
「这些模型为实验人员提供了可测试的假设,而且,由于破坏这些相互作用,可能获得干预各种疾病的新方法,可以说,这一发现为未来新靶向药物的研发提供了更多可能。」Qian Cong表示。
 

上个月,Jumper 和他的同事在bioRxiv 上发布了一篇预印本论文,介绍了AlphaFold AI工具的新版本,名为AlphaFold-Multimer。
 
该工具绘制出了 4433 种蛋白质复合物的结构,准确率达到了69%。
 
「对于结构生物学来说,这确实是一个激动人心的时刻」,Baker说。


参考资料:

https://www.science.org/content/article/ai-cracks-code-protein-complexes-providing-road-map-new-drug-targets

https://www.science.org/doi/10.1126/science.abm4805

https://www.biorxiv.org/content/10.1101/2021.10.04.463034v1.full.pdf