耶鲁AI颠覆化学合成 实验成功率71%
近日,美国耶鲁大学博士毕业生李昊特和合作者开发了一套叫 MOSAIC 的 AI 系统,把化学合成知识分成了 2,498 个专业领域,每个领域训练一个专家模型。
这套系统在测试中对超过 35 种全新化合物的合成成功率达到了 71%,甚至帮研究人员完成了之前文献报道失败的化学反应和前所未见的新反应。
使用时给定 AI 一个化学结反应式,它不光告诉你这物质形态,还直接给你一份可以进实验室操作的详细步骤,包括用什么试剂、加多少量、加热多久、怎么提纯,甚至连每一步的注意事项都写好了。日前,相关论文发表于《自然》。
这项研究的出发点,来自于研究人员对化学学科现状的观察。化学是一门以实验为基础、经验性极强的学科。人们学到的知识和技巧大多来自前人的积累,这本来是好事,但问题在于,今天每年有上百万篇化学论文发表,没有任何一个化学家能读完所有文献,更不用说记住其中的细节了。
化学渗透在生活的方方面面,从制药、材料、催化到农业和消费品,新药物的开发、新材料的合成都需要大量的试错。
一个有机化学反应的优化往往涉及多个参数:溶剂、浓度、反应顺序、时间、温度曲线,而且这些参数还会相互影响。探索一个新反应,通常需要大量的时间投入和试错成本。
在这样的背景下,研究人员想做一个系统:输入一个目标分子,系统不仅告诉你能不能合成,还能给出可以直接进实验室操作的详细步骤。
然而,通用大模型虽然能聊天,但你要让它给出一个具体化学反应的实验步骤,它经常说得驴唇不对马嘴。它会用看起来很专业的术语编造一套方案,温度不对、试剂不对、顺序也不对,按照它说的去做很可能什么都得不到,甚至炸掉反应瓶。
(来源:《自然》)
MOSAIC 的做法则是把整个化学合成知识空间分割成 2,498 个小区域,每个区域选一个专家。比如某个专家专门负责一种叫 Buchwald-Hartwig 的偶联反应,尤其是氯代芳香环的那种。
当你输入一个新的化学反应时,系统先在知识空间里找到离它最近的专家,然后让这个专家来回答。
为了判断哪个专家离得近,研究人员先训练了一个叫 KMN 的神经网络。这个网络能把化学反应转化成 128 维的数字向量,专业上叫反应特异性指纹。向量之间的距离越近,说明两个反应越相似。
有了这个空间,他们用了一个叫 FAISS 的高效检索工具,把知识库聚类成 2,498 个沃罗诺伊单元,每个单元就是一个专家的地盘。
训练的时候,先让一个基础模型把所有数据都学一遍,再针对每个专家所在的子集做二次微调。对一个新反应做预测时,系统先算出它的向量,找到最近的几个沃罗诺伊单元,激活对应的专家,然后让专家输出完整的实验方案。
研究人员最初尝试了训练一个完整的大模型,但很快意识到需要的计算资源太大了,几百上千张 GPU 卡,大多数实验室无法长期测试。
后来他们转换思路,从最基础的做起,只把模型在单个类型反应上微调。结果发现,简单的办法反而取得了好的效果。
传统方法需要几百上千张 GPU 卡,MOSAIC 只需要几张卡就能跑,而且是可持续生长的。新数据来了不需要重新训练整个系统,只需要在知识空间里加新的沃罗诺伊单元,训练新的专家,已经存在的专家不受影响。
搜索的时候系统会同时从已有和新索引里找结果,合并排序后输出。这种去中心化的设计对资源有限的学术实验室非常友好。对大多数研究者来说,用单个或几个 A100 GPU 就能让这个架构持续进步。
研究人员用 MOSAIC 预测了 37 种新化合物的合成路线,其中有 35 种在第一次尝试时就成功了。更让人意外的是一个 5-氮杂吲哚衍生物的合成,这类化合物在之前文献报道中被标注为是难以用现有方法制备的。
而 MOSAIC 给出的预测距离最近的专家中心距离是 320,远高于通常的置信阈值 150,这意味着这个反应在知识库里几乎找不到相近的先例。
但是,研究人员完全按照预测做了实验并成功实现了产物,同时 MOSAIC 找到了一个之前未被报道过的环化方法。这说明这套系统不只是照搬已有知识,它有一定的泛化能力,能在已有知识的边缘组合出新的方法。
[物价飞涨的时候 这样省钱购物很爽]
这条新闻还没有人评论喔,等着您的高见呢
这套系统在测试中对超过 35 种全新化合物的合成成功率达到了 71%,甚至帮研究人员完成了之前文献报道失败的化学反应和前所未见的新反应。
使用时给定 AI 一个化学结反应式,它不光告诉你这物质形态,还直接给你一份可以进实验室操作的详细步骤,包括用什么试剂、加多少量、加热多久、怎么提纯,甚至连每一步的注意事项都写好了。日前,相关论文发表于《自然》。
这项研究的出发点,来自于研究人员对化学学科现状的观察。化学是一门以实验为基础、经验性极强的学科。人们学到的知识和技巧大多来自前人的积累,这本来是好事,但问题在于,今天每年有上百万篇化学论文发表,没有任何一个化学家能读完所有文献,更不用说记住其中的细节了。
化学渗透在生活的方方面面,从制药、材料、催化到农业和消费品,新药物的开发、新材料的合成都需要大量的试错。
一个有机化学反应的优化往往涉及多个参数:溶剂、浓度、反应顺序、时间、温度曲线,而且这些参数还会相互影响。探索一个新反应,通常需要大量的时间投入和试错成本。
在这样的背景下,研究人员想做一个系统:输入一个目标分子,系统不仅告诉你能不能合成,还能给出可以直接进实验室操作的详细步骤。
然而,通用大模型虽然能聊天,但你要让它给出一个具体化学反应的实验步骤,它经常说得驴唇不对马嘴。它会用看起来很专业的术语编造一套方案,温度不对、试剂不对、顺序也不对,按照它说的去做很可能什么都得不到,甚至炸掉反应瓶。
(来源:《自然》)
MOSAIC 的做法则是把整个化学合成知识空间分割成 2,498 个小区域,每个区域选一个专家。比如某个专家专门负责一种叫 Buchwald-Hartwig 的偶联反应,尤其是氯代芳香环的那种。
当你输入一个新的化学反应时,系统先在知识空间里找到离它最近的专家,然后让这个专家来回答。
为了判断哪个专家离得近,研究人员先训练了一个叫 KMN 的神经网络。这个网络能把化学反应转化成 128 维的数字向量,专业上叫反应特异性指纹。向量之间的距离越近,说明两个反应越相似。
有了这个空间,他们用了一个叫 FAISS 的高效检索工具,把知识库聚类成 2,498 个沃罗诺伊单元,每个单元就是一个专家的地盘。
训练的时候,先让一个基础模型把所有数据都学一遍,再针对每个专家所在的子集做二次微调。对一个新反应做预测时,系统先算出它的向量,找到最近的几个沃罗诺伊单元,激活对应的专家,然后让专家输出完整的实验方案。
研究人员最初尝试了训练一个完整的大模型,但很快意识到需要的计算资源太大了,几百上千张 GPU 卡,大多数实验室无法长期测试。
后来他们转换思路,从最基础的做起,只把模型在单个类型反应上微调。结果发现,简单的办法反而取得了好的效果。
传统方法需要几百上千张 GPU 卡,MOSAIC 只需要几张卡就能跑,而且是可持续生长的。新数据来了不需要重新训练整个系统,只需要在知识空间里加新的沃罗诺伊单元,训练新的专家,已经存在的专家不受影响。
搜索的时候系统会同时从已有和新索引里找结果,合并排序后输出。这种去中心化的设计对资源有限的学术实验室非常友好。对大多数研究者来说,用单个或几个 A100 GPU 就能让这个架构持续进步。
研究人员用 MOSAIC 预测了 37 种新化合物的合成路线,其中有 35 种在第一次尝试时就成功了。更让人意外的是一个 5-氮杂吲哚衍生物的合成,这类化合物在之前文献报道中被标注为是难以用现有方法制备的。
而 MOSAIC 给出的预测距离最近的专家中心距离是 320,远高于通常的置信阈值 150,这意味着这个反应在知识库里几乎找不到相近的先例。
但是,研究人员完全按照预测做了实验并成功实现了产物,同时 MOSAIC 找到了一个之前未被报道过的环化方法。这说明这套系统不只是照搬已有知识,它有一定的泛化能力,能在已有知识的边缘组合出新的方法。
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
97%成功率:科学家用基因剪刀精准清除艾滋病毒 |
心源性猝死抢救成功率不足1% 医生亲身经历 (1条评论) |
泰缅边境民间救援队长:救援成功率不足20% |
送你进常春藤名校成功率达98% 这家公司价码曝 |
AI生成药物分子90%成功率未来研发 |
为提高过年相亲成功率男生化妆了? |
已超90%近20年艾滋病治疗的成功率 |
韩国要美国赔钱 导弹成功率太低 |
高云翔上诉成功率不大 收监18个月 (1条评论) |
推荐:
耶鲁AI颠覆化学合成 实验成功率71%