当AI遇上蛋白质,开启生命数字化新风口:800多家机构已开始布局,想象空间可能更大

3839 字丨阅读本文需 9 分钟

每一个产业风口的开启,总有一些标志事件。就像2016年Google DeepMind的AlphaGo与李世石下棋,2020年年底Google DeepMind的AlphaFold2参加2020年第14届国际蛋白质结构预测竞赛(CASP14)。前者昭示了AI第三次浪潮的来临,而后者有可能开启生命科技数字化的黄金十年。

用AI预测蛋白质结构,对于加速生命科技的数字化,至关重要,在全球生物数字化的竞赛中,中国阵营正采用新思路、新路径,加速推进。

1、生命数字化开启新风口 蛋白质结构预测是关键

拼多多创始人黄峥和字节跳动创始人张一鸣宣布退休之时,其未来规划中有一个共同选项,就是希望投入更多的精力在生命科技的研究与探索上。事实上,其他如百度创始人李彦宏、阿里创始人马云等,都将个人的下一个兴趣目标定在了生命科技上。生物世界的数字化,正在成为新风口。

新晋中国工程院外籍院士张亚勤几天前表示,在过去三十年,信息产业推动了内容的数字化、企业的数字化,而未来的重点是物理世界的数字化和生物世界的数字化,下一个十年是AI与生物制药融合的大好时机。

“一方面我们的身体从大脑、器官,到细胞、蛋白质、基因、分子都在数字化,另一方面人工智能算法、算力和系统的快速进展让大量数据有了使用的场所。”张亚勤说,以前新药研发需要超过十几年的周期,十亿美元的投入,AI正在改变这种状况。

每一个产业的发展都有一些关键基石,而生物数字化、生命数字化的一个关键是利用数字技术破解蛋白质结构之谜。

蛋白质为什么关键,因为它是生命构成的基本要素,用北京航空航天大学大数据精准医疗高精尖创新中心特聘研究员叶盛的话:“人体细胞乃至地球上任何一种生命的细胞,都是由蛋白质构成的。”可以说,几乎所有的生物学问题都会牵涉到蛋白质,而几乎所有的蛋白质功能问题最终都要通过结构研究去回答。不同的蛋白质通过折叠构成形态各异的三维结构,执行多种多样的生理功能。

长期以来,从氨基酸序列到对应蛋白质三维结构的预测问题被认为是生物学领域最具有挑战性的问题之一。蛋白质结构研究为什么难,因为蛋白质的尺寸为纳米级,比人类肉眼的可见光波还要小,超越了光学显微镜的观察极限,因此要想研究蛋白质的结构,必须要采用某种间接的方式。

而且解蛋白质结构之题,远远难于基因。“蛋白质结构测定与基因组测序最大区别在于,基于组序列是一维的、线性的,信息仅有4种可能的代码(A、C、T、G);而蛋白质结构是三维的,每个原子的坐标在XYZ三个方向上都可以是任意的数值。因此,基因组测序无论测什么物种的基因组,本质上都是在做同一件事,可以通过机器进行自动化、规模化的操作,而蛋白质结构测定则是不同的课题,科学家始终没有找到批量处理的方法。”叶盛说。

在过去几十年的研究中,结构生物学家为探测蛋白质结构发展出三大实验手段:X射线晶体学、核磁共振和冷冻电镜。但实验方法成本高、周期长。目前人类已知有数十亿蛋白质序列,还原出结构的却只有十几万。生物学发展因此颇受掣肘。

人工智能的发展为解决这一问题带来了一些新的可能。在2020年的国际蛋白质结构预测顶级竞赛 CASP14上,Google DeepMind推出AlphaFold2(简称AF2)预测的大部分单体蛋白质结构准确度与实验足够接近,远超此前所有方法。这一结果也标志着蛋白质单体结构的问题在一定意义上得到了解决。中国结构生物学家施一公对此的评价为“这是人工智能对科学领域的最大一次贡献。”结构生物学家Petr Leiman表示:“我用价值一千万美元的电镜努力了好几年,AF2竟然一下就算出来了。”

除了AlphaFold2,另外一个被高度关注的AI算法是华盛顿大学医学院蛋白质设计研究所的贝克团队,有人说因为DeepMind的成功触动贝克团队重视AI,于是其联合很多大学与机构研发了一款基于深度学习的蛋白质预测新工具 RoseTTAFold,并在预测蛋白质结构上取得了媲美AF2的超高准确率,而且速度更快、所需要的计算机处理能力也较低。

总之,AlphaFold2与RoseTTAFold是AI预测蛋白质结构的两个“明星”,破解了出现五十年之久的蛋白质分子折叠问题,打开了人类预测蛋白质结构的另一扇窗。今年7月,DeepMind团队与贝克团队分别开源了他们各自得算法,这给全球研究机构进行蛋白质结构预测带来福音,大大降低研究蛋白质结构的门槛,将帮助科研人员弄清引发某些疾病的机制,并为设计药物、农作物增产,以及可降解塑料的“超级酶”等的研发铺平道路。

2、蛋白质组学+AI,会不会是下一个市场焦点?

有人调侃,蛋白质组学概念之所以在二级市场遇冷,首要原因是人们并不清楚它究竟是什么。

但其实,它是开启精准医疗的钥匙。

电影《我不是药神》中的神药“格列卫”,其靶点就是一个融合蛋白,通过药物小分子抑制融合蛋白,最终控制慢性髓性白血病的发展。换句话说,谁更“懂”蛋白质,谁就能找到那把破解重大疾病、研发新药的钥匙。

然而,“传统的蛋白质组学分析技术和方法,并不完全适合用来研究蛋白质系统,所缺乏的是对蛋白质进行定量数据积累的过程,而且没有一个合适的算法。”西湖大学特聘研究员、西湖欧米创始人郭天南说。

AlphaFold的出现让科学界看到了曙光。

2021年7月,人工智能公司DeepMind和欧洲生物信息研究所合作,发布由AlphaFold预测的蛋白结构数据库,完成了人类蛋白质组98.5%的蛋白质结构预测。这被认为是本世纪最重要的科学突破之一。

随后,DeepMind在《自然》公布了AlphaFold2的源代码。AlphaFold2可在几分钟内破译一般蛋白质的三维结构,还能预测一个由2180个氨基酸相连的大蛋白质结构。

“在Alphafold2之前,AI技术一直没有真正进入微观的生命世界。但实际上,AI技术之于微观生命世界不仅是一个必要条件,也是一个充分条件。”郭天南说。

如果没有AI技术,人类的理解力不可能弄清如此多的蛋白质动态,因为它实在太复杂了。“基因相对稳定,一个人一辈子做一次基因测序就够了,但蛋白质无时无刻不在发生变化,一场感冒都会改变很多细胞、蛋白质。而精准医学就是根据病人当前的情况,给他提供最合适的诊断和治疗方法。有了蛋白质组学+AI,精准医学将会提高到另一个层面。”郭天南说。

3、800多家投资机构布局

目前国内外蛋白质结构预测领域竞争十分激烈,技术的开源对于创业团队来说,门槛反而有所提高,更需要有很大的技术突破才能在行业中拥有一席之地。

国外在蛋白质结构预测方面领先的机构公司有Deepmind、Baker Lab等。前不久,Deepmind创始人Demis hassabis宣布成立的新公司lsomorphic Labs(同构实验室),将聚焦AI对生命的基本机制的建模和理解,重构药物发现的过程。而Baker Lab深耕生物科技领域,应用落地能力比较强。

在国内,除天壤之外,腾讯和中科院在蛋白质结构预测领域也多有建树,其应用场景也主要集中在生物科技领域。

另外,AI应用于生物科技的市场前景十分可观。

英国调研机构Deep Pharma Intelligence发布的一份产业发展报告显示,截至今年第二季度,利用AI技术实现药物发现、生物标志物开发和先进研发环境的企业,全球大约有300家,还有880多家投资机构入局这一赛道。其中,有21家为CRO(合同研究组织)企业,31家传统药企,以及29家科技化工公司。中国AI制药企业占比达到2.5%,即大概有7-8家AI制药公司总部在中国。

市场规模方面,沙利文联合头豹研究院发布的一份报告统计显示,全球药物研发市场持续增长,2020年规模达1915亿美元(约合人民币1.24万亿元),预计在2023年将达2168亿美元。

医疗行业是最重要的人工智能应用市场之一。艾瑞《中国AI+医疗行业研究报告》推测,到2022年,预计AI+医疗市场规模将超过70亿元。据天眼查不完全统计,自2020年以来,我国AI+医疗领域共发生了89起融资事件,融资金额总计达175亿元。今年1至10月,国内共发生27起涉及AI制药领域的融资事件,融资金额达81.13亿元人民币(含IPO上市)。对比2020年融资轮次,2021年的天使轮和Pre轮融资事件占30.8%,是2020年天使轮融资的两倍,AI制药投融资火速升温。

今年8月,AI制药企业星药科技、晶泰科技已完成新一轮融资,其中晶泰科技此次融资4亿美元,距离上次超3亿美元融资还不到1年。红杉资本等知名投资机构都有参与。

显而易见,未来围绕结构的蛋白质设计、药物发现以及整个AI生物科技产业都将会成为吸引资本布局的热门赛道。

4、想象空间可能更大

对比二级市场尚未“显山露水”,近年来,蛋白质组学在一级市场迎来了它的“小阳春”。

2020年,蛋白质工程服务商拜谱生物宣布完成千万级Pre-A轮融资;蛋白质组学技术服务及产品销售商中科新生命宣布完成2亿元A轮融资;蛋白质组学技术开发及应用商景杰生物宣布完成5.3亿元人民币的B轮融资。

郭天南所在的西湖欧米于1月13日宣布完成数亿元Pre-A轮融资。该轮融资由倚锋资本和高瓴创投共同领投,高榕资本、幂方资本和西湖科创投跟投。去年西湖欧米已完成了天使轮和天使+轮融资。

如今,蛋白质组学方法被应用于肾癌、肝癌、结直肠癌、肺癌、胃癌等癌症的临床研究和诊治。科学家们纷纷表示,蛋白质组学驱动的精准医学(PDPM)新时代已经到来。

高榕资本执行董事乐贝林告诉《中国科学报》,用蛋白质做诊断、药物抗体开发以及蛋白原料的公司此前受到资本青睐,它们分别代表了蛋白质在终端及原料中间体的应用。与此同时,布局蛋白质产业上游端,比如全新发现的大数据端蛋白质组,近年来也备受关注。

“以往,蛋白质组在样本大小、类型以及单位样本所产生的数据量上有所限制。因此,我们更青睐在基础数据方法学上有创新和独到的技术,并能产生高质量数据的公司。”乐贝林说。

掌握基础方法学最核心的技术,可实现极小微量样本蛋白质组的分析,拥有多样化的临床样本处理能力、独到的数据分析解读能力,以及医学背景出身的郭天南是公司很好的“翻译官”……这些都是西湖欧米被资本方看中的原因。

从人类基因组计划启动到最近十年,境内外涌现了一批上市公司,如华大基因、肿瘤NGS公司GRAIL、蛋白质组学公司SEER。“蛋白质组学理论上可以复制基因组在诊断上的路线,甚至走得更加深入。进一步看,蛋白质组学的应用从诊断迈向治疗,想象空间可能更大。”乐贝林说,这也是对郭天南在该阶段尝试AI制药的信心和期待所在。

能否步入深水区,发现有代表性的药物靶点,并把它做成全新的药物,是科学家孜孜以求的目标。如中国科学院院士、军事医学科学院院长贺福初在肝癌方向发现了很好的靶点,并在靶点上进行了药物筛选。“下一步,蛋白质组学的技术积累能否在药物的创新性研发上有所突破,我们拭目以待。”乐贝林说。

如果将视野再拓展一些,除了重大疾病之外,蛋白质与生活中的慢病、代谢类疾病也有紧密关系。与蛋白质组学相结合的药物、食品、保健品等终端产品,均未来可期。

当前生物计算的发展十分迅速,与20年前的互联网有诸多相似之处。基因组学研究带来的人体数据、新药研发过程当中所积累的知识以及新生的各类机器学习算法三大关键指标在快速增长,会带来巨大的突破和进步。

来源:科技有态度,光明网,华夏时报

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:AI小助手
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...