此图非彼图!让数据“图像化”,图计算未来几年将成长为数据行业新风口

微观人 2022-09-15
3687 字丨阅读本文需 9 分钟

说起大数据和云计算,人们几乎耳熟能详。但若提到图计算,了解的可能寥寥无几。

事实上,作为最近几年迅速发展的新技术,图计算技术目前在金融、工业、互联网等多个领域已有广泛应用,尤其在金融反洗钱、发欺诈领域。而意识到图计算技术重要性的大型企业,也纷纷加大对图计算领域的投入。

图计算缘起

“Things, not strings.”(是相互连接的事件,而不只是一个个字符串)Google在2012年5月提出了这句话,以及知识图谱的概念。

知识图谱,由知识(Knowledge)和图谱(Graph)两个词构成,前者是信息的内容要素,后者是信息最终的表现形态。这种信息间全新的连接方式,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体之间通过关系相互联结,构成网状的知识结构。

知识图谱能够成立的核心是计算机的知识推理机制,图计算为其提供了重要的底层技术支持。

图计算中的“图”即Graph,这是一种基于图论而非数论的计算逻辑。

图论的基本要素是“节点”和“边”,“节点”可以理解为人或者网络账号这些相对静态的实体,而“边”则代表着不同实体之间的关系或者行为。

比如A在抖音上关注了B,这个动作就成为A和B之间这条“边”上可包含的信息。“边”在记录内容的时候可以表示方向(可以理解为在A与B之间标注出了箭头),这被称为有向图,而如果“边”没有标注方向则称为无向图。这种信息数据甚至可以是多模态的,比如在脑科学领域涉及光或电信号的时候。

相比于链表或者线性表的二维结构,“图”相当于在结构上做了一次升维,这也让其对于“关系”有更优越的描述能力,也更接近人类对于事物联系的原生表达。

简单来讲,我们从来不是以Excel的样子来理解外部世界的,图的相互连接更接近正常人的思考方式。从遥远的阿兰•图灵时代开始,人类就在思考如何让机器像人类一样思考,图计算是目前为止最有潜力的路径。

一开始只是试图找到从鹿特丹到格罗宁根的最短路径,荷兰计算机科学家Dijkstra为了解决这个问题在1956年发明了寻求图最短路径的Dijkstra算法,这是最早与图计算连接起来的概念之一。到Google创始人Larry Page在20世纪末发明了开创性的PageRank算法(网页排名),以及随着社交网络时代降临而繁荣起来的如Girvan-Newman算法等社区发现算法。

这其中也能看出来,图计算的定义本身也在经历一个从狭义到广义的延展过程。

狭义的图计算更多指在确定不变的图上做的计算,比如基于地图信息的路网图——在变化频率和幅度很低的鹿特丹到格罗宁根之间寻找一条最短路径——这是图计算可以解决的典型问题。

广义的图计算指一切基于图数据进行的分析计算,其中的数据概念进而扩充到海量规模并且富于动态变化,比如社交媒体的关系网络(脸书的核心框架Social Graph),不断发生新事件的历史知识图谱,或者将道路拥堵变化也考虑在内的路径规划。

于是图数据库的概念被引入进来。

图数据库是用来处理图这种数据结构的工具,传统的使用二维表格存储数据的数据库被称为关系性数据库——或者可以被理解成无数以横竖轴结构展开的表数据的集合,图数据库则是另一种非关系性数据库,它把所有表格打散了,然后织成一张网。

图数据库与关系型数据库最大的不同是免索引邻接。即图数据模型中的每个节点都会维护与它相邻的节点关系,这就意味着查询时间与图的整体规模无关,只与每个节点的邻点数量有关,这使得图数据库在处理数据之间关系方面比关系性数据库更加灵活之外,也具备处理大量复杂关系时比后者更优越的性能。

图计算与图数据库的发展是互联网时代的一条暗线,在其中一些关键技术背后,可以看到谷歌、Meta、推特甚至高盛的身影——如果你还记得2007年开始爆发的那场金融危机的话——莱曼兄弟公司破产,高盛却因为提前预见到了次级抵押贷款市场的熊市而活了下来,背后是图数据库系统——SecDB对危险的察觉能力。

不遑说,今天许多伟大公司都是基于图计算领域的尖端技术而诞生或持续繁荣的。

而在经历了几十年的发展之后,图计算现在站到了更广泛的应用场景入口。

咨询公司Gartner在《2021 年十大数据和分析技术趋势》的报告中预测,2025年全球将有80%的数据和分析创新会与图技术有关。

在这届世界人工智能大会(WAIC)上,与图计算或图数据有关的论坛数量也多达五场,是本次大会上被最高频的概念之一。如蚂蚁集团、亚马逊云等瞩目的图数据库框架,也在本届WAIC上首次开源。

图计算作为一种技术在国内开始成熟的标志是,小范围的数据已无法探索技术上限,它比以往任何时候都需要更大的试验场,比如6亿用户的抖音,或者12亿用户的支付宝。越来越多大型科技公司出现在关于图计算的讨论中。开源是产业化的隐喻,产业化的加速使图计算开始获得更丰富的能力纵深,甚至早已不局限在知识图谱的领域。

图数据库爆发式增长

图计算爆发增长在即,围绕中国图计算技术及应用话题,CB Insights中国在会上提前解读了《中国图计算技术及应用发展研究报告》(以下简称报告)。

《报告》中指出,图数据能更自然、直观地表述数据间的关联关系,是一种更符合人类思考方式的抽象表达。随着企业对数据间复杂关联的深度挖掘需求日益增长,图数据的应用开始受到越来越多的关注。根据DB-Engines Popularity指数,近五年来图数据库关注热度翻倍,在各种类型数据库中连续多年保持第一。

此外,根据CB Insights数据,过去三年间国内外共有近15家企业获得了超过20笔融资,其中海外知名图数据库企业Neo4j在2021年6月的F轮融资中获得3.25亿美元投资,成为数据库历史上最大的一笔投资。

《报告》还指出,近年来图计算领域不仅在学术研究方面快速发展,在产业应用方面也正在大步推进中,目前行业参与者中,既有蚂蚁、阿里、腾讯、AWS等公有云、软件、数据库等领域的巨头,也有 Neo4j、TigerGraph、创邻科技、欧若数网等国内外创业企业。

目前图计算仍处于商业化初期,市场对其认知仍不足;应用场景也相对有限,主要集中于金融风控、能源电力、社交网络等之中。未来对于图计算领域的众多学术机构和厂商来说,如何联动学研两侧、完善行业生态、提升市场认知、开拓更多应用场景,前路依然任重而道远。

抓住“弯道超车”的发展机遇

在业内看来,图计算是未来大数据、人工智能和高性能计算产业发展的关键所在,它很有可能会成为下一代的数据底座。第三方咨询公司Gartner在《2021年十大数据和分析技术趋势》报告中就曾预测,到2025年图计算技术将应用于80%的数据和分析创新。

计算机科学家、中国工程院院士郑纬民认为,随着人类社会步入大数据时代,数据之间的关系变得越来越重要,作为承载数据资源的“容器”并能对外提供查询和分析能力的图数据库也变得愈发重要,在传统数据库时代,国外企业一直占据国内数据库市场的绝对份额,但在图数据库时代,中国有机会与国外企业同期起步,“全球图数据库市场尚未定型,现在布局正当其时,我们要牢牢把握住这一难得的发展机遇。”

由于图计算更加适合海量数据的处理,因此专家普遍认为,金融科技、生物信息、智能制造、电信和公共医疗等对数据实时处理要求更高的行业,将是图计算在商业化应用领域前景最为明朗的应用场景。洪春涛告诉记者,TuGraph已应用于蚂蚁内部150多个场景,包括在线支付的实时链路,以支付宝风险识别能力提升近10倍、风险审理分析效率提升90%的成绩,验证了其高可靠性。他还透露,TuGraph 正在与复旦大学合作,通过与脑科学领域的跨学科合作,将图计算应用于神经元模拟仿真探索。

中国工程院院士、浙江大学信息学部主任陈纯研究的领域也是图计算的一支——时序动态图实时计算及智能决策。在他看来,关联图谱就像社交,以前的关联图谱不带有时间,而基于时序大数据,以前的数据得以留存,现在的数据也时刻流进来,“这就好像水库的水,正在流向水库里的水是流数据,留在水库里的水都带有时间,它对于很多行业分析都极为重要。”陈纯举了一个网络自动化攻击防御的场景案例,基于时序动态图的机器防御系统可通过多服务器访问流水关联决策、长周期数据决策、复杂规则爬虫识别、设备维度爬虫识别等技术,拦截业务系统中占原有访问总流量80%~90%的网络机器人访问流量,使业务系统服务器的压力降为原来的10%。

未来几年,赛道可期

当我们谈到,流式图计算引擎 GeaFlow 的本质以及未来发展时,潘臻轩这样说道:“GeaFlow 从技术上说是图计算和流式计算融合交叉的计算技术,从计算语义和计算模型上,它更贴近于图计算的语义和模型。从业务的使用角度来看,它更偏向流式计算,也会用到流式计算的相关技术。流式图计算本质上还是一种增量计算,但是从计算语义和数据模型的角度是以图为中心的视角。”

同时潘臻轩还表示,“我个人认为未来图计算领域会越来越成熟并且越来越标准化。在数据体系方面,未来图计算会像通用大数据体系一样,越来越完备。比如围绕实时的图数据,可以构建一整体实时图数仓的体系,基于这样一套实时图数仓的体系,可以构建图数据实时的数据处理、实时图数据访问。既可以提升图数据的鲜活性,还可以更大的发挥图数据的价值。同时,在算力上,我相信图计算的能力也会越来越强,更多的业务场景会采用图数据结构,从而进一步深度的挖掘数据的价值,并且随着算力的增强,也会有越来越来的图计算场景从离线走向实时,从实时走向在线。”

就在去年,人民日报曾发文称:在我国发展高性能图计算,具备良好的技术基础和现实条件。一方面,人们如今的日常生活离不开高性能计算。天气预报、新药研发、新型材料、安全系数更高的汽车、高铁和飞机等都需要高性能计算作支撑。另一方面,由于图的优秀表达能力、可视化效果和坚实的数学基础,图计算也已在国家安全、金融安全等方面有很高的价值。有研究报告显示,到 2023 年图技术将促进全球 30% 企业的快速决策场景化,图技术应用的年增长率超过 100%。

以蚂蚁集团为例,图计算已被成熟应用于蚂蚁集团的支付和数字金融场景,为风控、反洗钱、反套现和社交网络应用提供了稳定的决策支持能力。其中,支撑支付宝的重要风险识别能力提升了近 100 倍,风险审理分析效率提升 90%。

数字化浪潮越卷越大,企业的线上数据也越来越多。通过数据进行决策一定会涉及到数据化的分析和运营,而图作为一个高维的数据结构,可以更好地挖掘数据的关联特性,为企业提供精准高效的决策。图计算赛道未来的发展,值得期待。

文章来源: 金融界,InfoQ,品玩

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...