我的位置: 城事 > 创新之城 > 文章详情
蛋白质结构预测取得突破后,诺奖得主为上海支招:加快发展计算生物学
分享至:
 (26)
 (2)
 收藏
来源:上观新闻 作者:俞陶然 2021-09-06 07:01
摘要:迈克尔·莱维特表示,复旦团队在研究中大量运用了机器学习,这种技术对算力资源、人力资源的要求很高。

复旦大学复杂体系多尺度研究院近日取得突破,其自主研发的“作品折叠”(OPUS-Fold)软件在蛋白质侧链结构的预测精度上,超越谷歌旗下深度思维公司DeepMind)开发的“阿尔法折叠2”(AlphaFold2),相关论文将发表在国际期刊上。蛋白质侧链结构与药物研发息息相关,这一计算生物学领域的突破有望大幅提高新药研发效率、降低新药研发成本。

诺贝尔化学奖获得者、复旦大学复杂体系多尺度研究院荣誉院长迈克尔·莱维特和复旦大学复杂体系多尺度研究院院长马剑鹏认为,随着人工智能技术的成熟,计算生物学已从一门辅助性学科转变为引领性学科,国际上的科研成果快速涌现,对生命科学研究和生物医药产业产生重大影响。“希望上海投入更多的人力和算力资源,加快发展计算生物学。”莱维特说。

迈克尔·莱维特在上海接受记者采访。

人工智能破解蛋白质结构问题

对于“阿尔法折叠2”,公众知晓率也许不高,但说起击败柯洁和李世石的“阿尔法围棋”,就几乎无人不知了。这两个人工智能系统都是由英国企业深度思维开发,与“阿尔法围棋”相比,“阿尔法折叠2”的应用价值要大得多,其功能是预测蛋白质三维结构。

马剑鹏介绍,蛋白质由一系列氨基酸折叠而成。氨基酸线性排列成一条长链,在水中能自发地折叠成三维结构。对科学家来说,测定氨基酸序列比较容易,但解析蛋白质结构的难度非常大。可否根据已知的氨基酸序列预测出蛋白质结构呢?理论上是可能的,因为蛋白质结构取决于几千个氨基酸各个原子间的相互作用力,可以用计算机软件算出所有作用力形成的三维结构,但运算量相当惊人,连世界上最快的超级计算机也很难承受。

迈克尔·莱维特演讲PPT

能否开发出算法强大的软件,精准预测蛋白质结构?莱维特研究这个问题长达55年。1975年,他就和同事开发出一个程序,成功预测了蛋白质单链折叠后的三维结构。2013年,他与两位同行因共同创立了高分子多尺度模型获得诺贝尔化学奖。

2020年11月,“阿尔法折叠2”在国际蛋白质结构预测竞赛上夺冠,预测精度非常接近实验测定水平。这一成绩在业界引起轰动,被美国《科学》杂志评为“2020年十大科学突破”之一。“通过引入神经网络、注意力模块等人工智能成果,‘阿尔法折叠2’把蛋白质结构预测推上了新的高度。”莱维特说。

“阿尔法折叠2”预测(蓝色)和实验测定(绿色)的蛋白质结构几乎完全吻合。来源:DeepMind

复旦与欧美科研团队展开竞争

今年,计算生物学发展势头不减,欧美科研团队接连发布重磅成果。7月15日,深度思维团队在《自然》杂志发表论文,公布了“阿尔法折叠2”的开源代码和预测蛋白质结构的方法。同一天,华盛顿大学团队在《科学》杂志发表论文,介绍了“罗塞塔折叠”(RoseTTAFold)这一开源软件的功能——不仅能预测蛋白质结构,还能预测多种蛋白质的结合形式。8月27日,斯坦福大学团队发表《科学》封面论文,介绍了人工智能算法预测RNA(核糖核酸)三维结构的突破性进展。

在这个竞争激烈的前沿领域,复旦大学也取得了一系列成果,在蛋白质结构测量、修正、预测与设计、动力学模拟和药物筛选等多个子问题上,保持国际领先水平。“‘作品折叠’在蛋白质侧链结构的预测精度上,明显高于‘阿尔法折叠2’,报道这项成果的论文正在审稿阶段。”马剑鹏告诉记者,“蛋白质侧链结构预测是一个国际公认的难题,以蛋白质为靶点的药物分子大多与侧链发生作用,只有获得高精度的侧链结构,才可能设计出药物分子,所以这方面的突破对新药研发意义重大。”

复旦团队根据已知主链进行侧链建模的结果:蓝色为目标结构,红色为预测结构。

虽然在侧链结构预测上处于领跑地位,但从整个系统来看,“阿尔法折叠2”依然领先。据悉,这个人工智能系统已预测出35万种蛋白质的结构,数量还在不断增长。

研发核心算法需要更多算力人力

“时不我待,我们要迎头赶上,何况我们的竞争对手是谷歌这样的巨头。”马剑鹏的话里透着一丝焦虑。2014年,谷歌斥资6亿美元收购了深度思维,一直在扶持这家人工智能企业成长“速度是最关键的因素,这个领域发展太快了,现在几乎每过几个星期,国际上就有重要突破的报道。如果不能在短期内将资源部署到位,我们和国外的差距会进一步拉大,已有优势也会很快失去。

莱维特表示,复旦团队在研究中大量运用了机器学习,这种技术对算力资源、人力资源的要求很高。作为世界顶尖科学家协会副主席,他建议上海加快发展计算生物学,为这一基础科学领域的科研团队配备更强大的超级计算机等设备,并组织更多研发人员加入团队,让“作品折叠”等软件系统的功能早日完善。

“作品折叠”的蛋白质主链建模过程:预测结构(红色)逐步靠近目标结构(蓝色)。

随着“阿尔法折叠2”的开源,国际上很多科研团队开始使用这个系统。然而在马剑鹏看来,国内高校和科研院所要吸取以往教训,不能在基础软件上一味奉行“拿来主义”。我国科研团队应从核心算法等底层技术做起,建立具有自主知识产权、覆盖结构生物学和新药研发全过程的计算生物学算法及软件。唯有如此,我国才能在未来科研和产业应用上掌握主动权。

“人工智能主导药物研发的时代正在到来,从预测蛋白质结构、寻找药物靶点到药物分子设计,再到临床试验设计,人工智能正在全面介入,开始发挥关键作用”上海交通大学Med-X研究院副院长殷卫海说,在人工智能制药领域,总体来看我国与国际先进水平差距较大,迫切需要发挥新型举国体制优势,组织计算生物学、结构生物学、药学、临床研究等相关领域人才开展联合攻关,并导入资本和产业资源,促进人工智能制药产业链的形成。

计算生物学的产业应用前景十分广阔。除了制药,科研人员还能利用蛋白质结构预测软件研制新材料、开发新功能,如设计出自然界不存在的蛋白质材料,用于化工、能源、环保等行业。

栏目主编:黄海华 文字编辑:俞陶然
照片摄影:孟雨涵
上一篇: 没有了
下一篇: 没有了
  相关文章
评论(2)
我也说两句
×
发表
最新评论
快来抢沙发吧~ 加载更多… 已显示全部内容
上海辟谣平台
上海2021年第46届世界技能大赛
上海市政府服务企业官方平台
上海对口援疆20年
举报中心
网上有害信息举报专区
关注我们
客户端下载