困扰科学家70年的难题 被AI解决了

  


  图片来源:DeepMind 官网

  从首个蛋白的一级结构被公布,到如今 DeepMind 打造的 AlphaFold 系统开始破解人类蛋白组几乎所有蛋白的空间结构,已经过去了超过 70 年的时间。AI 在结构生物学领域取得的重大突破,不仅提升了我们对蛋白质的理解,还将改变我们对几乎所有生理过程和人类疾病的认识。

  去年年末,人工智能研究实验室 DeepMind 的 AlphaFold 在国际蛋白质结构预测竞赛(CASP)上一骑绝尘,首次将蛋白三维结构预测的分数提升至 90 分。不到 8 个月后,DeepMind 又为生物学界带来了两个重磅消息。7 月 15 日,他们在《自然》杂志上发布了关于 AlphaFold 算法的新论文,实现了原子层面上的蛋白质结构精确预测。仅仅一周之后,他们又和欧洲生物信息学研究所(EMBL-EBI)合作发表了一篇《自然》论文。这次,他们想要完成的是一个更大的目标——破解人类蛋白组中所有蛋白质的三维结构。

  氨基酸,蛋白质

  从人类首次解析出构成蛋白质的氨基酸序列,到如今可以模拟和解析人体蛋白组中绝大多数蛋白的三维结果,科学家已努力了超过 70 年。1949 年,英国生物化学家弗雷德里克 · 桑格(Frederick Sanger)通过水解胰岛素,首次确定了组成牛胰岛素的氨基酸序列,这也是人类确定的首个蛋白质的氨基酸序列。这些氨基酸序列是牛胰岛素的一级结构,如果我们只按照这个序列合成胰岛素,得到的产物不会有活性。氨基酸序列需要通过数步折叠过程,形成复杂的 3 级结构后,才能成为具有功能的蛋白质。

  1965 年,中国科学家首次解析出胰岛素的精确结构,人工合成出了具有活性的胰岛素。在人类的蛋白组中,胰岛素是一种结构简单的小型蛋白质,它含有两条肽链,有 51 个氨基酸。对人类等真核生物来说,一个蛋白质中平均含有 400 多个氨基酸残基,其中绝大部分蛋白质的空间结构远比胰岛素复杂。

  人类基因组草图公布后,科学界对蛋白质的研究进入了快车道。经过数十年的努力,研究人员通过解析蛋白质的氨基酸序列、提取纯净和高质量的蛋白质,再加上冷冻电子显微镜的应用,至今已经解析出了超过 5 万个人源蛋白质的三维结构。无疑,我们获得蛋白三维结构的速度正在不断变快。

  不过,实验解析蛋白质也受到诸多限制。由于这一过程过于繁琐,且稍有不慎就无法获得较好的蛋白质空间结构,因此仍有大量人源蛋白质结构有待破解。与此同时,一些科学家开始尝试另一种工具——借助人工智能(AI)技术来预测蛋白的空间结构。


  1994 年,计算生物学家约翰 · 莫尔特(John Moult)等人创立了 CASP 比赛,让 AI 加入到蛋白质三维结构的研究中。不过在此之后的 20 多年中,各个 AI 实验室在这项比赛中的始终缺乏实质性突破。直到 DeepMind 的加入,彻底改变了这一局面。

  2020 年,DeepMind 开发的一款蛋白质三维结构预测算法 "AlphaFold" 一举夺得了当年 CASP 比赛的最高分(GDT 分数为 90 分),比第二名的分数高出了 15%。GDT 分数主要用来评估算法预测三维结构中氨基酸的位置与实际空间结构的差距,分数越高,预测越准。当时 AlphaFold 就像是一枚投在生物学界的炸弹,当时《自然》《科学》等相继发文,强调了这是人工智能的一次重大胜利。

  从实验解析到 AI 预测

  在细胞中,蛋白质的折叠过程需要分子蛋白或辅助蛋白的帮助。而我们能看到的是,一些氨基酸序列通过一系列变化,形成了一个具有三维结构和活性的蛋白质。在蛋白质中,具有相同特性的氨基酸通过特殊的共价键(例如二硫键)聚集到一起,形成一些特定的螺旋结构,比化学键更加微弱的分子间作用力维系着蛋白质的三维结构。

[物价飞涨的时候 这样省钱购物很爽]
无评论不新闻,发表一下您的意见吧
上一页123下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
     推荐:

    意见

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *: 
    安全校验码 *:  请在此处输入图片中的数字
    The Captcha image  (请在此处输入图片中的数字)

    Copyright © 温哥华网, all rights are reserved.

    温哥华网为北美中文网传媒集团旗下网站