4分钟就能复现诺奖研究,生成式AI还真是制药行业的一大“助手”

圈圈圆圆圈圈 2023-12-21
2593 字丨阅读本文需 7 分钟

ChatGPT大模型爆火这一年,没想到竟颠覆了整个化学领域。

先是谷歌DeepMind的AI工具GNoME成功预测出200万种晶体结构,随后微软推出的MatterGen,大大加速了设计所需材料特性的速度。

今天,CMU和Emerald Cloud Lab的研究团队开发了一种全新自动化AI系统——Coscientist,荣登Nature。它可以设计、编码和执行多种反应,完全实现了化学实验室的自动化。

实验评测中,Coscientist利用GPT-4,在人类的提示下检索化学文献,成功设计出一个反应途径来合成一个分子。GPT-4遍历整个互联网上的说明书,并选择数据库中最好的试剂盒和试剂,在现实中制造分子。

最令人震惊的是,Coscientist在短短4分钟内,一次性复现了诺奖研究。

GPT-4自动化学研究

当前,AI工具在科学领域的应用激增,但对于在实验室工作的研究人员,或那些不精通代码的人来说,AI并非唾手可得。

我们都知道,化学研究建立在迭代循环的基础上。在这个循环中,实验被设计、执行,然后进行改进以实现特定目标。对于化学家来说,所做的研究是多管齐下的——不仅需要执行化学反应的技术技能,还需要规划和设计化学反应的知识。

举个栗子,当合成一个新物质时,化学家们需要「逆合成分析」,从最后的目标物质一步一步想回去,以确定初始的分子,然后在数据库中搜索合适的反应条件,并选出一条最可能成功的合成路线。但是,在实际的实验中就会发现,化学反应通常无法按预期高产率和选择性得出产物。

这时,还得需要重新搜索文献、设计新的实验路线、再次尝试实验,整个迭代过程就会变得遥遥无期。

对于人类化学家来说,即便有了相应的知识,要想设计和执行一个化学反应也不是一件容易的事情,因为设计出的化学反应往往很难以理想的速率来生成产物。

当OpenAI在3月份放出GPT-4后,Gomes和团队成员开始思考,如何让大模型为化学家服务。

Gomes表示,「Coscientist却可以做真正训练有素的化学家可以做的大部分事情。」

当人类科学家要求Coscientist合成一个特定的分子时,它会在互联网上搜索以设计合成路线,然后为所需的反应设计实验方案。在获得具体的实验方案以后,它能编写代码来指示移液工作站,然后运行代码,让机器人执行它编程过的任务。而真正厉害的是,Coscientist还可以从反应的结果中学习,并建议对协议进行更改以进行改进。

这种迭代循环优化了反应,从而能够实现预期的实验目标。

AI能更有效利用数据和算法

ChatGPT尤其是GPT-4的问世是生成式人工智能应用的突破,而生成式AI驱动药物研发也有很长的实践。

英矽智能宣布通过多模态生成式强化学习平台Chemistry42基于结构生成化学分子的药物设计方法,成功发现了一款有效的、具有选择性的、口服CDK8抑制剂,有潜力用于癌症的治疗。

英矽智能的Chemistry42平台建立在多年对大型生物、化学和文本数据集建模和训练的基础上,包括42个生成式AI模型和超过500个用于评分的预测模型,帮助研究人员通过基于结构的药物设计(SBDD)和基于配体的药物设计(LBDD)思路,利用尖端深度学习技术从头开始生成具有所需特性的分子。

Alex介绍,这42种生成式AI模型包含了GANs、大语言模型等多种可生成虚拟分子结构的算法;而评分预测模型可以判断每种模型所生成的候选分子是否达到所需特性,包括分子能否合成、分子结构是否稳定、有没有靶点选择性等。他表示:“我们还有过滤模型对未达标的分子结构对应的生成算法进行惩罚,反之则进行奖励,以过滤掉不准确的分子。这与ChatGPT的强化学习(RLHF)模型是一样的道理,ChatGPT使用了预训练数据集,而我们训练时使用的是实时数据。”

英矽智能已将基于大型语言模型最新进展的高级AI聊天工具ChatGPT集成到它的 PandaOmics平台中,PandaOmics是拥有21种算法的靶点识别平台。新功能「ChatPandaGPT」使研究人员能够与平台进行自然语言对话,并有效地导航和分析大型数据集,以更有效的方式促进潜在治疗靶点和生物标志物的发现。

新药研发需专业数据和反馈,ChatGPT准确度受限

虽然Chat-4在消费者场景中已经是现象级产品,但Alex表示,以ChatGPT系列为代表的这些生成式AI模型对制药业来说并不成熟,既不能用于靶点发现,也不能用于分子生成,更不能用于临床试验预测。如果要真正做到为新药研发提供帮助,这些模型需要在专门的生物和化学数据上进行训练,然后由专业的科学家对他们的训练结果提供反馈,而不仅仅是由OpenAI通过对公众开放收集反馈这样易于达成。

ChatGPT之所以更适用于消费者场景,是因为它会优先考虑用户体验,比如在几秒钟内就能响应。但药物研发领域的产品优先考虑的是准确性而不是用户体验。Alex表示,AI药物研发平台分析处理生物数据并获得潜在靶点可能需要几分钟,针对特定蛋白生成新颖分子的时间可能是几小时到数十个小时。

其次,ChatGPT也非常善于处理自然语言。拼写、语法、甚至风格都接近完美,而且它非常友好地避免了攻击性或争议性的话题,这应该是OpenAI通过雇佣大量的AI训练师和慕名而来的大量“野生”AI训练师共同训练而实现的。这个过程可以简单的理解为从人类反馈中强化学习(RLHF),这也是OpenAI是如何使这个系统对人类如此友好的秘诀所在。

Alex认为:“当涉及到医疗健康领域时,考虑到对准确率和对专业知识的需求,无论是消费领域还是专业领域,我将完全避免在这些领域使用它。而且目前,即使ChatGPT提供的参考资料通常也是错误的。这或许是因为维基百科在ChatGPT训练中发挥了非常大的作用。维基百科有大量的人为偏见。即使涉及到科学,维基百科也常存在偏见,并不总是包含所有的关键论文参考文献。”

他表示,我们也不应该信任ChatGPT所参与填写的一些报告。虽然在美国,一些医生已经用ChatGPT处理保险索赔等信息。这些不准确的信息不应在未来被用于训练专门的系统,“说到这里,我更期待在生物医学和医疗健康领域出现类似ChatGPT的专门系统。这将需要从Nature、Elsevier等主要出版集团获取生物医学文献的全文。另外,ChatGPT也给了我另一层启发,英矽智能在过去10年里设法建立的大规模专业数据库也比我想象的要有价值得多。当然我们也使用了专家级的数据清洗团队和AI训练师来训练,使我们的平台和算法组合更精确。同时,我们的平台还经过了专家使用者的验证和反馈。”

AI制药成热门赛道

AI赋能新药研发,已被视为医疗AI中最有发展潜力的领域之一。据统计,全球已有超过700家AI制药企业,阿斯利康、强生等国际大型制药公司都在与AI制药企业携手推进各项项目。

在我国,近80家初创的AI制药企业正在崭露头角,恒瑞医药、石药集团等知名药企,药明康德、美迪西等医药外包(CXO)企业也纷纷选择通过战略合作、股权投资等方式积极对接AI。

据Research And Markets数据显示,2022年全球AI制药市场规模达到了10.4亿美元,预计2026年市场规模将攀升至29.94亿美元。

国内AI药物研发行业尽管起步稍晚,但预期明亮,2023年市场规模预计将突破4.14亿元。今年前三季度,我国AI制药企业融资事件超过20起,这表明融资环境良好,大部分企业处于早期发展阶段。

AI有潜力改变新药研发的游戏规则。新药研发投入高昂,周期长且失败率高。AI技术,如机器学习、深度学习、图像识别等,可以提供更精确的预测模型和命中率,从而缩短药物发现时间,提高药物研发成功率,节省研发成本。

政策法规的出台将对AI新药研发产生积极影响。例如,2022年1月,《“十四五”医药工业发展规划》就强调了新一代信息技术在医药研发中的赋能作用。

在疾病关键靶蛋白的确定和验证、小分子/疫苗/抗体的设计与优化、毒理学和安全性评估等各个环节,AI都可以发挥重要作用。

文章来源: 新智元,明亮公司,腾朗数字人

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:圈圈圆圆圈圈
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...