深势科技创始人兼CEO孙伟杰:AI另一种用法是加速计算模拟,实现“计算制药”

亿欧网 2021-08-09

科技孙伟杰机器学习

2981 字丨阅读本文需 6 分钟

“热潮下,我们对AI制药行业应该保持清醒和理智。”在亿欧大健康的采访中,北京深势科技有限公司(简称:深势科技)创始人兼首席执行官孙伟杰的看法多少有些令人意外——AI正是深势科技在制药行业所仰赖的关键核心之一。

这家年轻初创公司引领的跨尺度建模技术成功应用了人工智能、科学计算、高性能计算等能力,革命性地提高了微观科学计算的尺度和精度。7月,他们刚刚完成了由高瓴创投领投,经纬中国、百图生科跟投的数千万美元A轮融资,这是该公司在一年内完成的第三轮融资。

获得北京大学管理学硕士学位的孙伟杰与普林斯顿应用数学博士张林峰本就是北大元培学院的同窗。2019年,再次相会的两人在科学、工程、人文及至商业的思考上高度共识,于是共同创立了深势科技。从此,二人从本科时代的老同学成了并肩创业的伙伴。 

孙伟杰拥有丰富的科技领域分析及投资经验,张林峰则专注科学研究,主要研究方向包括统计物理、分子模拟和机器学习,及其在化学、生物、材料等方向的应用。孙伟杰担任公司创始人兼首席执行官,张林峰担任公司创始人兼首席科学家,各有专长的两人跨学科的搭配也成为了深势科技这家公司人才结构的缩影。 

公司核心团队由中国科学院院士鄂维南领衔。鄂维南院士和张林峰共同参与研究的“机器学习模拟上亿原子”在2020年荣获了“戈登·贝尔奖”,这是国际高性能计算应用领域的最高奖项。他们通过高性能计算和机器学习将分子动力学极限提升了数个量级,从基线提升到了上亿原子的体系规模,同时保证了从头算(ab initio)的高精度——根据孙伟杰介绍,这一领先的分子模拟方法也是深势科技在持续探索的方向。

深势科技融合了「多尺度建模+机器学习+高性能计算」的新一代分子模拟技术,突破性在于实现了多尺度分子模拟中精度与效率的统一,可以为药物、材料领域带来极具突破性的计算模拟及设计工具。

目前,深势科技已在药物设计、材料设计等领域落地了成形的产品及解决方案。创新药领域,深势科技推出了根植于云计算的临床前计算机辅助药物设计平台Hermite,以及针对小分子药物、多肽药物和抗体药物的设计管线服务。

谈起AI制药,孙伟杰更倾向用“计算制药”的概念。在他的认识中,解决问题的不只是AI,更是计算。而在理想情况下,计算的作用不止于辅助制药,而是可以部分代替实验。

AI的另一种用法是为计算模拟加速

“在NLP、CV等领域的成功表明,AI是强大的数据处理和模型训练的计算工具。在制药领域,当讲到AI制药这个概念,好像AI单独解决了药物发现这个问题,其实不是。”对此,孙伟杰给出了更多观点。

“在药物设计的整个计算过程中,物理模型的求解、药物领域的专家知识、除AI之外的更多计算手段,都应该结合起来整体发挥作用, AI在其中可以起到的作用是加速,是计算工具之一。就像一些传统的经验模型、物理模型、数据挖掘方法一样,最终解决问题的还是计算。” 孙伟杰认为,从根本上厘清AI与计算的关系是对AI制药行业保持冷静的前提。

据华兴资本统计,近五年来,全球制药企业越来越多的参与到AI的应用和投资中,仅在2020年就涌现了28笔新的合作交易;在中国,AI制药的“新大陆”上,阿里、腾讯、百度、华为、字节跳动……互联网巨头们接踵而至,为2020年冠上了“AI制药元年”之名。

在AI制药的光辉下,出现于上世纪80年代的CADD似乎成了明日黄花。一些人眼中,AI制药和CADD严格代表了未来和过去两个时代,而前者则是后者完整的技术迭代。这在孙伟杰看来实则是一种误区,“计算是更大的概念,AI作为一种计算方法是其中的一个子集,我们更应该关注‘计算’和制药的关系,而不仅仅是一个AI的算法。”孙伟杰说。

事实上,无论方兴未艾的AI制药还是历史悠久的CADD都属于科学计算的范畴,孙伟杰认为,AI的确提供了其中一项重要的算法。在所有算法中,目前解决问题的更多是传统的计算化学相关算法,它们更依赖于底层的物理模型。在这点上,AI能起到的作用更多是为物理模型的计算加速,为数据挖掘和数据处理的方法加速。“AI让传统的算法走上了快车道,变得更加高效,” 孙伟杰话锋一转,“但这更像是一种对CADD的赋能,单独来看,它只是一个工具。”

有力的事实证明了孙伟杰所持的观点:拥有几十年发展历史的CADD已相对成熟,这一领域有一些已经固化成软件的工具、方法,乃至实验中成型的规则,它们确实地在应用端解决着一些实际问题。美国Schrodinger(薛定谔)公司的药物研发解决方案就是基于上一代CADD的成熟典范。

相比之下,AI制药则罕有实绩证明自己凌驾于CADD之上。孙伟杰认为原因之一可能源于二者所属的两种不同范式:CADD中计算机做的是运算;而AI制药中,AI做的是归纳。众所周知,归纳的高准确性来源于足够的样本量。这意味着AI若想获得类似问题的处理能力,以及相应的精度,就需要高通量数据对其进行训练。这也很好解释了为什么目前AI还解决不了很多高维问题——现实世界的数据并不充足。

“当以AI为代表的计算工具真正具有比拟实验精度的时候,能够大幅提升药物研发厂商研发的效率,这样的计算工具才会具有更强的生命力,”孙伟杰如是告诉亿欧大健康,“现在整个行业的发展还任重道远。”

计算的意义不止于辅助制药

孙伟杰认为,计算的意义始终在于部分代替实验。而“部分代替实验”则对算法提出了精度和速度这两个维度的要求。

权衡下,深势科技的选择更侧重于演绎和计算的物理模型。这一路线绕开了难寻的数据带给精度的考验,其原理是依靠确定的物理规律对微观世界的分子和原子如何运动进行计算。

在这条赛道上,人们长期以来面临着精度和效率不可兼得的困局:基于量子力学的方法准而不快,基于经验公式的方法快而不准。

以量子力学的方法为例,其物理模型已经十分准确,基本能够摆脱经验的束缚。“不快”的原因在于巨大的运算量。孙伟杰指出,在微观的多体作用下,数学计算量将随原子的数量增加而立方上升。“2个原子时计算量是8,3个原子就是27……可以想象,算数万个原子的时候,它的计算量是‘爆炸’的。”

深势科技的对策和突破是跨尺度建模。这项技术的背后有着一个简单的逻辑:既然准,那么再把它做快就好。张林峰曾在采访中对跨尺度建模进行过解释:“药物体系的很多微观性质预测的本质需求是精确求解原子间相互作用。描述原子间相互作用的关键物理量是原子间的势能面。对此,我们可以想象的是,势能面的本质就是从所有原子位置到一个能量的高维函数,而机器学习最擅长做的就是逼近高维函数,所以说这是一个自然的结合。”

“通俗的说,就是教会AI解物理方程。” 孙伟杰表示,教会AI学习去解这样的方程,可以将整个方程的求解速度提升若干数量级。而这样巨大的提升,也让“部分代替实验”的目标显得不那么遥不可及。

孙伟杰给出了一组2018年的数据:全球范围内,计算制药公司的收入之和只有不到20亿美金;而全球在整个临床前,每年仅蛋白质水平尺度上的实验投入就有200亿美金左右,整体来看,计算对实验的渗透率不足6%。

“计算的理想终点远不止辅助制药,它的本质是想去替代部分的实验。而我们的目标是计算对实验的渗透率达到工业设计与工业仿真行业的级别。”对发展前景,孙伟杰讲述了明确的目标。毕竟,无论计算模拟的手段发展到何种程度,最终的实验验证都不可或缺,但就像工业设计与工业仿真行业一样,计算模拟与实验验证能够充分配合,循环迭代。在药物设计领域,把以实验为主的研发范式,变为“计算设计-实验验证”的研发范式,这正是计算对实验渗透的终极目标。

现在,孙伟杰带领深势科技正朝着这一目标一步步扎实的前进。围绕领先的分子模拟算法,持续推动和深势科技有相同技术基因的DeepModeling开源社区的建设。在DeepModeling开源社区中的开源软件已被全球近千个研究课题组使用,每年引用其软件发表的论文数百篇。这种开源的做法正帮助软件实现快速迭代,却没有引发孙伟杰对商业壁垒的忧虑。

“代码本身不会形成固态壁垒。真正的壁垒不在于是否开源,而是优质的生态。开源让优秀的开发者会自动集聚到真正有价值的社区。”孙伟杰的解释是,当把优秀的人、场景、需求都集聚在一起,碰撞出新的火花,生态才能繁荣。开源这种软件协同开发模式,在计算机科学领域和机器学习领域较为普遍,但在科学计算领域则属于新事物。孙伟杰的解释展开了新的想象空间“未来已来,只是还不够流行。” 


本文来源于亿欧,原创文章,作者:魏江翰。转载或合作请点击转载说明,违规转载法律必究。      

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:亿欧网
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...