大型科技公司逐浪的 " 新风口 ",图计算 " 开源 "会改变什么?

IT猿人 2022-09-02
3368 字丨阅读本文需 8 分钟

世界“最快”图数据库开源、图计算开源委员会成立……昨天举行的2022世界人工智能大会“新一代图智能技术发展与实践论坛”宣布了一系列举措,意味着图计算正从封闭的实验室模型快速走向应用推广,迎来发展的黄金时代。

作为人工智能(AI)领域前沿技术,图计算正成为产业界以及学术界的关注重点。昨天的论坛上,国内科技公司人士从政、产、学、研等不同视角共话图计算技术以及应用场景。大家认为,这一新技术有可能会成为下一代的数据底座,助力提升金融、能源、通信等行业的智能化水平,实现科技普惠。

1、建设图数据库应用生态

图计算,简而言之就是将数据按照图的方式建模,以获得用扁平化的视角很难得到的结果,更适合海量数据的数字化时代。目前,包括华为、蚂蚁、AWS等公有云、数据库领域的巨头,都在大步推进图计算的商业化与应用场景探索。最近一段时间,一级市场也掀起了一股图计算的创业与投资热潮,冒出了Ultipa、创邻科技等多家创业企业。

昨天的论坛上,世界“最快”的图数据库TuGraph宣布开源。据悉,TuGraph由蚂蚁集团和清华大学共同研发,是图数据库权威测试世界纪录保持者,也是世界上有测试纪录的“最快”图数据库。开源技术指导委员会也同时成立,以共同建设图数据库应用生态。

蚂蚁集团图数据库负责人洪春涛介绍,这是一套分布式图数据库系统,可以支持万亿级边上的实时查询。此次开源的TuGraph单机版,具备完备的图数据库基础功能和成熟的产品设计,“相较于市场上常见的开源产品,TuGraph单机版的性能高10倍以上”。因此,它可以轻松支持TB级别数据和百亿级别大图,足以满足大多数业务场景需求。随着TuGraph的开源,开发者可以聚焦应用层,打造属于自己的图数据,从而提升行业整体技术应用水平。

2、图计算,大型科技公司逐浪的 " 新风口 "

图计算是一种能够研究客观世界当中任何事物和事物之间关系,并对其进行完整的刻画、计算和分析的技术。

在 Gartner 发布的《2021 年十大数据和分析技术趋势》报告中显示,自 2018 年 10 月至 2020 年 10 月,Gartner 有关图计算技术领域的查询量和兴趣增长了 280%。Gartner 认为,通过图计算分析和洞察数据之间的关联关系能够提高社会运行效率,成为大数据与 AI 领域下一个战略制高点。

在数据库流行度排行榜网站 DB-Engines 上也可以看到,近 10 年来,人们对于图数据库的关注度,在过去十年内比其他的数据库都要高。

相比关系数据库,图形数据库是 NoSQL(非关系型)数据库中的一种,是表示和查询连接数据的最佳方式。

而相对其他非关系型数据库,采用的数据结构和分布式架构,适合离散、关联关系弱的数据存储管理。图数据库可以实现更好、更快地查询和分析,更简化地数据建模,由点及面地挖掘知识体系,面向对象的思维,以及更强大的问题解决能力等。

最常见例子就是社会网络中人与人之间的关系,传统数据库效果并不好,查询复杂、缓慢、超出预期,而图形数据库的设计恰恰弥补了这一缺陷。

目前,图数据库主要适应的场景需求有两类:一是对时间有要求,希望快速分析并得到结果的场景;二是对分析深度有要求的场景,如一些区块链金融客户希望对数字货币交易可追踪不只深入到几十步,而是上百步甚至上千步。

根据 CB Insights 预计,到 2027 年,图数据库市场将以 17.7% 的复合年增长率增长,达到 46 亿美元。

全球主要研究图计算的厂商,包括了许多大型科技公司,亚马逊和谷歌是最早推出了自己的图数据库的大厂,随后,微软、IBM、Twitter、Facebook 等也开始采用图数据库。

另外,一些初创公司也在跟随,如 Neo Technology 开发了主流图数据库 Neo4j,以及 TigerGraph 等初创公司等。

而中国,近几年图数据库市场已经引起了一定的关注。首先是互联网厂商已经开始推出自研的图数据库,初创公司在后跟随,并出现了原生图数据库领域的初创企业。

比如蚂蚁集团的 TuGraph,阿里云图数据库 GDB,百度的 BGraph 和 HugeGraph 等。还有初创公司费马科技的 LightGraph,这家公司成立于 2016 年,由多位清华大学博士创立,在 2020 年与蚂蚁集团图计算系统整合,发展成为了蚂蚁集团大规模图计算系统。

这些全球知名的大型科技公司正在大力投入图计算研发创新,显而易见是看到了图计算对未来业务驱动的巨大潜力。

实际上,Gartner 也预测过,到 2025 年,图技术将应用于 80% 的数据和分析创新,能够促进企业的快速决策。因为图计算链接着所有数据,它们构成了许多现代数据分析的基石。通过对分析数据和人工智能数据的高效管理,包括对图结构的分析,能够为过于复杂而难以解决的传统业务难题提供解决方案。

目前图计算已被应用于金融安全、互联网、工业、生物医药、公共安全、智慧城市等多个领域,成为全球研发机构、新兴创业公司,以及大型科技公司逐浪的 " 新风口 "。

3、图计算 " 开源 ",它会改变什么?

图计算对于数字化时代大规模、复杂的数据处理来说十分关键。经过 7 年多研究和探讨,蚂蚁图计算技术已经具备业界领先的技术能力和非常丰富的应用经验。

以企业担保场景为例,比如金融机构要给一个企业 A 贷款,这个企业找 B 企业担保,然后 B 企业找了 C 企业担保,但 C 又找 A 担保过,最后发现他们形成了一个环。那么这个担保等于是无效的,因为一层一层地下来,它回到了最初的这个公司。这可以都把它抽象成在图上找环的问题。

过去有些银行用 MapReduce 大数据处理的方法,但在企业担保场景里,大概只能找到长度为 6 的环,更长的环就找不到了。又比如像套现分析的场景,不仅是需要找环,而且速度还要非常快。因为用户去刷一个信用卡,肯定不希望后台算上两个小时才说有风险。

利用图计算系统,就可以在金融的场景中实现实时地找到最完整的路径。比如在蚂蚁的数字支付、数字服务、数字金融等核心业务中,利用图技术就可以显著提升风险行为的实时识别和调查分析效率。根据蚂蚁的数据显示,基于图数据库,支撑支付宝的重要风险识别能力提升了近 10 倍,风险审理分析效率提升 90%。

蚂蚁已经在复杂的用户交易行为中印证了大规模图计算的高效性能。秉承 " 成熟一个开放一个 " 的理念,蚂蚁希望图计算技术也能够走入更多大众的视野。

TuGraph 单机版开源主要是开放其图数据库的工具和技术性能,解决图谱应用项目中图数据库成本过高,易用性差,性能低下的问题。实际上,大量的应用场景下用户更关心成本、性能和易用性。TuGraph 能够实现单机部署,使用成本更低,并且性能优秀、通用易学。

但此次开源的更关键意义,在于蚂蚁希望通过开源去拓展图计算应用的生态,来带动整个市场发展。

在洪春涛博士看来,图计算的应用要经历三个阶段。

第一个阶段是解决传统大数据分析没法做的事情。比如金融反套现,常规的大数据手段很难快速地找到异常的套现环路,但图数据库能够做到实时监控。许多企业的图计算应用都处于这一阶段。

第二个阶段是有些场景既需要传统大数据分析,又需要图数据库查询。大部分企业的做法是使用关系数据库和图数据库别操作分析,但如果图数据库做得足够好,实际上只需要一个图数据库,即一个系统就能够满足以上需求。这对于用户而言是一个更加简洁的工具。目前蚂蚁则处于这个阶段。

第三个阶段则是对传统关系数据库的替代。图数据库的数据抽象比关系数据抽象更贴近自然和符合人类直觉,因此图数据库是比关系数据库更容易理解的。长远来讲,这种表达上的便利性会让人们倾向于使用图数据库来解决问题,从而使图数据库替代关系数据库成为一种主流。这是一种思维方式上的改变。

" 这是图数据库从一个配角走到主角的过程,它要取代原来已经很成熟的数据库系统,那么就意味着它要建造一个更成熟、更稳定的技术和商业生态。" 洪春涛说。

生态不仅需要囊括图计算产业链上下游,更应该覆盖各种各样的行业领域。

技术开源后,对图计算的学术研究也具备重要的意义。

一方面,开源的数据库工具能够提供给学术界继续作为技术研究的基础,让研究人员在 TuGraph 代码的基础上更便捷地做自己的研究创新。

另一方面,让越来越多的生态和业务场景参与进来后,也有助于反哺技术的改进升级。

蚂蚁技术研究院图计算实验室研究员朱晓伟博士介绍说,最开始做图计算方面学术研究的时候,发现大部分分布式图计算系统的论文认为通信是技术的瓶颈,所以主要研究如何让网络通信尽可能快。深入探索之后,我们发现很多工作过于侧重 " 通信 " 的优化,而忽略了 " 计算 " 部分因此引入的开销,反倒没有达到想要的效果。尤其随着网络条件越来越好,我们应该把重心放回 " 计算 " 上,优化的目标从 " 通信 " 为中心变成 " 计算 " 为中心,这是我们当时做的这个研究工作输出的核心观点,也是我们的产品能够取得相比之前系统很大幅度提升的关键。但后来当我们试图把它变成一个商业化产品来打磨的时候,发现 " 计算 " 也不一定是最关键的事情。比如在双十一大流量冲击的情况下,服务器的内存就变得更为重要,必须要保证整个计算过程在足够的内存下跑起来,不能断掉。这就从 " 计算 " 为中心变成以 " 空间或者成本 " 为中心。

把学术原型系统产品化的过程,除了不断改进计算性能,更重要的是如何通过业务场景的反馈将产品做得更加实用,由此更好地驱动业务发展。

实际上,不管是人们的日常生活,还是新兴产业发展,如今都离不开高性能计算,比如天气预报、新药研发、新型材料、安全系数更高的汽车、高铁和飞机等都需要高性能计算作支撑。图计算作为一个高维的数据结构,能够更好地挖掘数据之间的关联特性,为行业提供精准高效的决策。

文章来源: DeepTech深科技,文汇报

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:IT猿人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...