7月,DeepMind团队和欧洲生物信息研究所公布,其利用AlphaFold成功预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。
11月,科技公司Meta开发的ESMFold成功预测了超过6亿个蛋白质三维结构,其预测蛋白质结构的速度最高甚至可达AlphaFold的60倍。
谈及AlphaFold,西湖大学校长施一公曾说,“这是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一。”AlphaFold极大推动了研究人员对生物学领域的探索与研究,拓展了对蛋白质功能分析、以及下游应用的范围,甚至可能会改变结构生物学的实验流程与实验结果。
因为AlphaFold,“AI+生物”进入了迸发期。作为国内最早一批布局AI+蛋白质计算领域的公司,天壤也迎来了自己的爆发,2021年,其自主研发的国产蛋白结构预测平台TRFold,在CASP14蛋白质测试集的评估中获得82.7的成绩(满分100),仅次于AlphaFold2(91.1分)。
CASP是计算生物学领域中最权威和最负盛名的比赛之一,被誉为“蛋白质结构预测领域的奥林匹克竞赛”。天壤取得了当时国内所有公开蛋白质结构预测模型中取得的最好成绩,它标志着我国的计算生物学已经处于世界第一梯队。
苗洪江博士,正是带领着天壤团队获得这一成绩的核心人物。
偶然相遇
让这位计算生物博士
果断放弃剑桥offer
苗洪江的留学生涯开始得比较早。初中时,他便去了新加坡留学。本硕期间,苗洪江则是在英国牛津大学学习数学与统计,博士期间则是在伦敦帝国理工学院学习计算生物学。
在科研期间,苗洪江曾参与过多个人类基因组学、遗传代谢组学、蛋白质组学等生物计算项目,开发的结合TBM和FM思路、根据目标蛋白质接触图进行三维结构预测的方法,将可预测覆盖率提升了20%以上。
在过去的生物学研究中,受实验器材和技术条件的限制,科研人员通常只能用X光衍射的方式对某个蛋白质进行高分辨率的结构解析,而使用X光衍射的前提是蛋白质必须能够结晶。
然而,蛋白质结晶本身是一件极其困难的事情。
当时行业里经常有这样的案例,研究者在对蛋白质的特性、功能、通路都获得十分清晰的实验结果后,因为没有办法进行蛋白质结晶,仍然无法准确获得蛋白质的结构,也就无法从结构或生物原理上解释这些结果或功能。
“所以我们就通过计算机技术对蛋白质的结构进行模拟,解决一些通过实验或物理手段无法解决的问题。这就是我博士期间主要的研究方向。”苗洪江解释。
博士毕业后,苗洪江就收到了剑桥大学的博后offer。
2019年苗洪江回国办签证,期间偶然认识了天壤创始人薛贵荣博士。薛贵荣是人工智能与大数据领域的专家,曾任阿里妈妈大数据中心负责人和首席数据科学家,负责研发了阿里搜索引擎。2016年,薛贵荣创立天壤,并带领团队先后在AI围棋、交通、金融等领域取得重要突破。
苗洪江和薛贵荣相识是2019年初。就在2018年末,AlphaFold1出现,人们第一次见识到用AI模型证明蛋白质解析这件事情有可能被完成,“在此之前,就连CASP的组织者John Moult都对有生之年能否看到蛋白质折叠这件事情充满怀疑。”
机缘下初次相识,两人却交浅言深。“认识的当天,我们就聊了一下午。”苗洪江回忆,那天下午,他们从AI围棋项目谈起,一直聊到业界资深人士们对AI+生物领域的质疑,“在2019年,业界对于利用AI解决生物问题还没有很强的信心和确定性的创业意愿,但是我们都对这件事情抱有长远的愿景和投入的意愿。”
就这样,当大家都还在犹豫时,天壤便决定成立XLab团队,开辟AI+生物科技领域。苗洪江在跟薛贵荣进行过几次深入的交流后,更是决定放弃剑桥的offer,留在国内担任天壤XLab负责人,开启AI蛋白质模拟平台研究之路。
以AI为主导
按需设计带有特定功能的蛋白质
一个初创公司要想开辟新领域,一个核心团队要想搭建新平台,都不是一件容易的事情。
“将AI应用在蛋白质设计领域并且取得成果,也就是这两三年的事儿。”苗洪江解释。
此前,利用传统方式进行蛋白质设计需要满足诸多条件。首先,研究人员需要利用长期积累的对蛋白质结构的理解和经验,加上复杂的计算获得目标蛋白质的设计序列,再进行DNA的合成以及蛋白质的表达。最后还需要结合生物技术对表达的蛋白质功能和设计的目标进行检测,看是否与设计目标吻合,不仅耗时长且成本巨大。
天壤则开辟了一条全新的路径:以AI为主导,按需设计带有特定功能的蛋白质。这是XLab在继蛋白质结构预测领域取得重大突破后的又一里程碑事件。
今年6月,天壤XLab宣布,其基于自主研发的蛋白质设计平台TRDesign成功从头设计了iL-2生物类似蛋白质以选择性激活淋巴细胞的抗肿瘤活性。这意味着,基于TRDesign的蛋白质药物设计能力,可以不再受限于当前蛋白质药物开发中对已知天然蛋白质的限制,主动设计治疗性蛋白质,而不是被动地寻找发现;以前无药可用的疾病,也有望因设计出有效的蛋白质候选药物得以医治。
“国内的AI制药公司大部分集中在小分子药物开发上。因为这个领域是2018年才‘火’起来的,那个时候大家还没有办法通过AI进行准确的蛋白质结构预测,就更别提蛋白质药物的研发了。”苗洪江告诉动脉新医药,国内用AI进行大分子药物模拟或开发的公司其实并不多,天壤算是第一批投身此领域的机构。
蛋白质药物的设计开发能力源自于天壤构建了一套结构和功能之间关联的观测系统。该系统打通了序列-结构-功能三者之间的高速通道,可以高效地从氨基酸序列预测蛋白质的三维结构,也就能够以逆折叠的方式产出符合目标功能需求的蛋白质序列和结构。
除了前瞻性的布局之外,在设计方面,天壤XLab的设计方法和设计理念也具有划时代的意义。最早的时候,研究人员对蛋白质设计更偏向于随机设计以探索自然界中不存在的蛋白质。21世纪以来,以David Baker教授为代表的科研人员开始在理性设计的基础上运用计算能力,为设计蛋白质赋予特定功能及特性,但受限于人类对于蛋白质结构的理解,其能够获得的功能仍十分有限。
天壤XLab则以蛋白质功能需求出发,基于自研AI能力设计出具备目标功能的蛋白质。再利用一系列全流程的算法,反过去进行计算分析验证和优化,端到端的赋能药物研发人员实现按需设计带有特定功能的蛋白质先导分子,开发更好的治疗方式。
短短三年间,天壤XLab已成功推出单链蛋白质结构预测平台TRFold2、蛋白质设计平台TRDesign,专注复合体结构预测的TRComplex,以及不依赖MSA信息就能预测蛋白质结构的TRFold-single。
天壤XLab为何能够在行业萌芽初期就快速取得一系列成果?这与他们拥有一套通用的底层逻辑有密不可分的关系。
作为一家以AI核心能力为主导的公司,天壤拥有一整套完善的算法和算力系统。从AI围棋到城市级智慧交通,天壤不断用AI解决复杂系统的问题,蛋白质结构预测也不例外,基于巨大数量和量级的计算集群,以及算法和算力之间的架构支持,天壤利用AI快速切入生物计算领域。
此外,天壤XLab还会对市面上开源的先进算法进行测试和集成,形成一整套完整的、能够帮助研发人员解决实际困难的流程,帮助他们真正提高研发效率。
国内首个蛋白质设计工作台正式上线
人人皆可自由设计全新蛋白质
今年10月,天壤XLab正式上线了国内首个蛋白质设计工作台xCREATOR,免费开放给国内科研院校和机构,旨在为蛋白质研究者提供系统性支持,一站式解决算法、数据和算力问题,加速蛋白质设计工作的大规模开展和落地。
xCREATOR通过集成世界前沿多样化AI算法和强大的计算资源,为大家提供更高效、更便捷、更易用的蛋白质结构预测与设计服务。用户无需编写任何代码即可进行蛋白质预测和设计等各项任务,并对计算结果进行可视化展示和分析,适用于多肽、酶、抗体和各类功能蛋白质。
借助工作台,使用者几分钟内就可以获得接近实验解析精度的蛋白质结构。在过去,这个时间可能是数个月甚至数年,并且得借助造价昂贵的专业器械。xCREATOR将极大的帮助科研人员从繁琐的工程和实验中解放出来,投入到更有意义的生物创新与研究中去。
不同于研发人员过往使用过的算法工具箱式平台,xCREATOR工作台更关注蛋白质任务流程的设计和优化,研发人员能以项目管理的方式自由的对原本零散的各项任务进行分类、串联、整合和管理,在工作台上从项目规划、实施、计算、分析,一站式全流程地完成他的研发工作,有效赋能项目推进和管理。
苗洪江博士介绍,“中国目前很多行业缺乏核心软件,我们希望的是提供一款蛋白质设计领域的‘EDA软件’,让更多生物学的人能够更容易地用起来。”xCREATOR平台不仅支持个人用户自由进行各类蛋白质任务,还可以与团队协作共享研发成果,满足靶点发现、蛋白质设计、成药性优化等药物研发中的实际任务。
苗洪江感慨,“我们相信在可预见的将来,根据个体全局微观蛋白质环境,用AI技术对人体细胞内微环境进行分子层面的多组学全面分析,以AI设计的蛋白质药物为核心,有望使世界上的所有疾病都有药可医 。”
如今,围绕蛋白质结构功能、相互作用、突变及设计,天壤XLab仍在继续开发和优化适用于生物计算的AI能力。苗洪江透露,“天壤XLab作为天壤孵化的一个部门,已经越来越具备独立运作的商业能力,我们正在推进以XLab项目为核心的相关融资,实现团队和能力的扩展,加速推进项目的落地。”
*封面来源:123rf
如果您想对接动脉新医药报道的企业,请扫描小程序码进入VB100人脉圈查看。