陈-扎克伯格生物中心新成果:AI系统能分辨上万种蛋白,可区分正常细胞和癌细胞

收藏
关键词: 新成果细胞生物
资讯来源:生物制品圈
发布时间: 2022-08-18


人工智能学会了从图像中识别和分类不同的狗品种(上),来自CZ Biohub的一种新的机器学习方法可以从荧光显微镜图像中分辨出不同的人类蛋白质(下)  图片来源:CZ Biohub




导读


当你看见几张不同的宠物狗照片的时候,你可以按照颜色、耳朵大小、脸型等对它们进行分类,但是你能够用数据对它们进行定量比较吗?


如果你面对的不是几张宠物狗照片,而是上万个蛋白质分子呢?人类做不到的事情,机器可以吗?


针对这个问题美国陈-扎克伯格生物中心(Chan Zuckerberg Biohub)研究所最近介绍了一种新的机器学习算法——Cytoself,它可以在没有先验知识的情况下对蛋白质的荧光显微镜图像进行定量的分析和比较。


这项研究将会给生命科学领域带来什么变化,同样是研究蛋白质,Cytoself算法和DeepMind当红的AlphaFold系统有什么不同?


人体的每个细胞大约含有10000种不同类型的蛋白质,它们支持了几乎所有的细胞活动,堪称身体各项机能的“小管家”,有些蛋白质单独工作,有些则协同工作来保证细胞的健康运转。


这些蛋白质可能以任何组合出现在细胞中的任何位置,它们究竟是怎么协调工作的?7月下旬,美国陈-扎克伯格生物中心一组研究人员发现,利用人工智能可以探索蛋白质在生物体内协调工作的方式。这是怎么做到的?
01

新算法能定量分析、比较细胞中的蛋白


几十年来,生物学家一直在尝试使用各种方法和工具,建立细胞内蛋白质所有可能的位置和结构,来帮助人类进一步了解蛋白质的工作方式,而Cytoself的出现让这个问题的答案迅速浮出水面。


美国陈-扎克伯格生物中心的这项研究于2022年7月25日发表在《自然·方法学》(Nature Methods)上。题为“Self-supervised deeplearning encodes high-resolution features of protein subcellular localization”。



研究人员将Cytoself带到了世人眼前,那么它的算法有何与众不同?简单来说,它能够通过机器学习中的自我监督学习识别蛋白质定位的多样性和复杂性。


起初,研究人员在对Cytoself算法进行训练时,并没有选择向算法逐一输入单个示例,而是选择了一种自我监督学习的训练方案,以此来揭示出高分辨率的蛋白质亚细胞定位图谱。


在监督学习模型中,人类必须不断地用单个的例子来教机器人学习,也就是需要向算法输入大量的关于蛋白质图像的知识,从而达到对算法的训练效果,这个过程对于研究人员而言是繁杂且乏味的。


而如果机器人仅局限于人类给它训练的有限数目的例子,它可能会给系统带来一定的偏差,自我监督学习就可以规避这些缺点。


经过自我监督学习训练后,连研究人员都对Cytoself算法从蛋白质图像中提取的信息量感到惊讶。Cytoself不仅展示了机器学习算法的能力,还能给细胞以及蛋白质的研究提供新的视角。


论文的通讯作者Loic Roye感慨道, “这非常令人兴奋,我们正在将人工智能应用于一种新的问题,并且正在复现人类所知道的一切,甚至发现人类目前还不知道的。”


另一个通讯作者Manuel D.Leonetti表示,“机器将每个蛋白质图像转换为数学向量,因此,研究人员可以对看起来几乎没有差别的蛋白质图像进行比较。我们亦可以通过比较蛋白质的图像来预测它们在细胞中协同工作的方式,这有点令人惊讶。”


机器学习和高速成像专家Kobayashi则表示,“虽然此前有一些关于使用自我监督或无监督模型的蛋白质图像的工作,但从未如此成功地将自我监督学习用于处理如此庞大的数据集,该数据集拥有超过100万张图像,涵盖了人体细胞中的1300多种蛋白质。”


值得一提的是,这100多万张图像来源于CZ Biohub的OpenCell数据库。这个数据库旨在创建人类细胞的完整图谱,包括最终描述细胞中20000种左右的蛋白质。


据悉, 该研究团队下一步将用Cytoself跟踪蛋白质定位的微小变化,以识别不同的细胞状态,如正常细胞与癌细胞,这可能是进一步了解许多疾病和促进药物研发的关键。


对此,Kobayashi表示,药物研发过程中的筛选基本上需要反复进行试验,但是有了Cytoself算法后,科学家就不再需要用成千上万的蛋白质逐个做实验。这个方法可以有效降低成本,提高药物研发的速度。
02

CZ Biohub是一个什么机构?


Cytoself由CZ Biohub的科研人员发明,这家私人研究机构到底有何来头?


CZ Biohub于2016年正式启动,总部位于旧金山,它是一个非营利性研究中心,旨在使科学家能够研究最危险、最令人兴奋的想法。


CZ Biohub主页


简单来说,CZ Biohub支持细胞生物学中严谨、定量的研究,来对抗由细胞失调引起的疾病;他们建立并部署了检测和应对病原体感染的系统,来帮助人类应对现有和新型病原体的威胁。除此之外,CZ Biohub开源他们的工具和技术,给全球各地的科学家和科研机构提供了便利。


CZ Biohub的联合总裁Joe DeRisi博士曾表示, “CZ Biohub将通过创建新的技术平台、基础数据库和大规模细胞生物学管道,扩大我们在全球范围的病原体检测工作,在传染病和基础科学方面进行更加深入地研究。”
03

人工智能和生命科学的进一步融合


谈到了Cytoself,让我们不禁想到这段时间赫赫有名的AlphaFold。与AlphaFold一样,Cytoself同样是利用机器学习算法来探索蛋白质,二者有何不同之处?


AlphaFold是我们比较熟知的一个系统,它由DeepMind公司开发,迄今根据已知的基因序列预测出超过2亿多种蛋白质结构。


AlphaFold预测出的蛋白质结构


而Cytoself则与之不同,它是通过对蛋白质的荧光显微镜图像进行定量的分析和比较,可以帮助科学家预测蛋白质在细胞中协同工作的方式。


总体而言,不论是AlphaFold系统,还是Cytoself算法,它们都是人工智能(AI)与生命科学研究领域跨学科融合的成果。或许在将来,这种跨界融合会越来越多,也会给科学家们带来无数的惊喜。


参考资料
1.Self-superviseddeep learning encodes high-resolution features of protein subcellularlocalization.nature methods.
2. AI canreveal new cell biology just by looking at images.phys.org.
3. Home. czbiohub.