什么是图数据库?数据库进化的必然选项、千亿市场的“座上客”

2959 字丨阅读本文需 7 分钟

5月26日,国际权威技术协会“关联数据基准委员会”(LDBC,Linked Data Benchmark Council)发布消息,全票通过了全球首个金融图数据库测试基准“LDBC Financial Benchmark”(以下简称 FinBench)的立项。FinBench由蚂蚁集团主导发起,Intel、海致星图等国内外科技公司共同参与编写,用于评估金融场景下图数据库的功能和性能表现,计划于2022年底正式发布。目前LDBC已设立了专门工作小组(FinBench Task Force),开始推进实质性共建工作。

LDBC与TPC并称为国际数据库行业两大权威的测试基准协会。目前,LDBC在基于社交网络场景(SNB ,Social Network Benchmark)的图数据库性能测试上有显著优势。为了满足金融图数据库在应用场景、数据模式、工作负载上的差异,形成具有代表性、可靠性和可比性的金融图数据库评估测试基准,蚂蚁集团牵头,与国内外6家科技公司、行业专家协作,于2021年3月共同发起了FinBench项目,经过多轮严谨论证和研讨,于今年5月正式通过立项。FinBench完成后将丰富LDBC多场景的测试基准,填补全球金融图数据库测试基准的空白。

蚂蚁集团图数据库负责人洪春涛认为,“一个设计良好的测试基准程序可以很好地模拟出实际应用时数据的分布和查询特征,从而让用户了解数据库在实际应用中的表现,是数据库选型的一个重要手段,也是指导数据库发展的重要指标。”洪春涛介绍,FinBench涉及到很多关键技术,为此蚂蚁集团开放了一项“图数据生成方法及装置”专利让其真正落地,希望为行业从业者降低金融图数据库选型测试成本。而为了基准参与方更好地协作,此项基准代码会以开源方式管理,标准文档完成后也会在Github上发布。据了解,蚂蚁集团积极参与了多项国际、国内图技术标准的制定,如ISO “GQL图数据查询语言”国际标准( ISO/IEC CD 39075),作为主要参与者提交了多个贡献。

Gartner预测,到2025年图技术在数据和分析创新中的占比将从2021年的10%上升到80%。但图相关技术兴起不久,通过设立行业标准或者测试基准,将为行业提供参照和指引,大大缩小技术落地的成本,促进生态健康成熟发展。

什么是图数据库?

所谓图数据库,是以图结构进行语义查询,使用顶点、边与属性来表示和存储数据的数据库,即基于图模型,对数据进行存储、操作和访问,与关系型数据库中的联机事务处理(Online Transactional Processing,OLTP)数据库类似,支持事务、可持久化等。相较于关系型数据库,图数据库在处理关联关系上性能提升千倍以上,能够深挖关联关系,释放潜在数据价值。5G、物联网等技术的发展让数据呈指数倍增长,图数据库将有更广阔的应用空间。

图数据库也是所有数据库类型中增速最快的市场领域。Gartner从两年前开始首次将图数据库列入十大数据和分析趋势,而根据其2021 Gartner 最新报告预测,随着对数据隐性关联实时洞察日益增长的需求,到2023年全球30%的企业都将使用图技术来支撑其智能商业决策;5年图数据库将广泛应用于泛金融、IT、电信、生物医药、物流、电商零售、政府等领域,市场规模逾千亿美元。突破大规模并行图数据处理关键技术,推动高性能数据库在金融、电信、能源、制造等重点行业关键业务系统应用。

随着各大企业陆续进入数字化转型的快车道,关系数据越来越多,擅长处理关系数据的图数据库也越来越受到市场关注。原因在于,传统的关系型数据库是以寻着表格信息计算掉每个数据之后得出结论,而图数据库深度关联数据之间的关系,让分析者能更多维度地观察和分析数据,让数据分析效率更高,洞察更深层的数据价值。

Neo4j CEO Emil Eifrem近日就图数据库的发展趋势问题,发表了署名文章。他表示,随着信息世界的快速发展,数据库平台如雨后春笋般出现,市场上可选择的数据库增加到了350多家。且这个市场还在以5%-6%的速度高速扩张,市场体量未来4到5年有望从现在的500 亿美元攀升至 1,000 亿美元。

图技术为什么如此流行?

归根结底的一个事实是世界的连接正变得越来越紧密,数据相互连接,不断变化和日益复杂且呈爆炸式增长。数据是什么?数据即是对世界的描述,世界连接无处不在,数据也越来越相互关联。以供应链为例,10 年前供应链应用并不是图数据库的最佳用例。因为在当时任何生产实物产品的制造公司可能只拥有一个 2 到 3 个级别的供应链,关系型数据库完全能满足企业的需求。如果需要分析,加入2至3个节点即可。

时至今日,制造业企业不仅业务分布广泛,横跨不同大陆,而且还要应对此起彼伏的突发事件,例如去年肆虐全球的新冠病毒,年初苏伊士运河阻塞导致航运中断一周等情况。制造业企业需要了解这种事件对供应链乃至业务产生的影响,拥有确保供应链安全的能力,行之有效的解决方案就是实现供应链数字化。如今,企业面临的数据分析不再是2至3次的跳转挖掘,而是20、30甚至40次跳转挖掘。数据库尤其是在多次跳转方面表现卓越的图数据库成为必然之选。

不同于关系型数据库,图数据库以事物的连接方式为中心,强调数据之间的关联关系,它将数据间的联系视为和数据本身同等重要。图数据平台让用户能够在图数据库上开发和运行应用程序,它直接将关系和数据在物理层面上一并存储下来,使得访问数据结点和关系的操作能够以线性时间复杂度完成。在普通PC机上的测试结果表明,Neo4j图数据库的查询引擎能够在一秒内轻松遍历百万级的关系/边。

当今的世界是数据的世界,而这个数据时代对开发者而言堪称高光时刻。中国拥有世界上第二大的开发者市场,是一个真正崛起的开发者社区大国。目前,中国大量学生涌入数据库行业的学习中,成为数据库技术的后备军。对于中国的开发者和初学者而言,重视包括数据结构和算法在内的计算机科学知识是数据库学习的基础。良好的开源环境为初学者编写代码提供了高效且低成本的途径,而在云驱动时代,不断地了解并掌握云技术和服务则是学习数据库的必经之路。

在这个过程中,数据库行业发展趋势呈现三大特征:融合、向云迁移、数据科学家不断加入。“数据科学家并不喜欢数据库,他们更加钟爱数据。而图数据库是个例外,越来越多的数据科学家对图数据库青睐有加。数据科学家使用图形算法处理数据,再通过图将数据输入机器学习管道中,从而为机器学习模型和预测提供关系型信号。由此,图数据库成为机器学习管道中的核心部分。”Eifrem写道。

所以,面对数据库的未来十年,他的观点是,一直占有绝对优势的传统关系型数据库在过去几十年的发展坚实且具有非凡的价值,是今日数据库技术的基础。而未来十年,将是图数据平台成为主流并大放异彩的十年,这不仅引起了行业专家对图技术的重新思考,对于开发人员而言也是一件幸事。

国内众多企业布局图数据库

目前,国内除了海致科技、创邻科技以及星环科技、欧若数网、Ultipa等创新公司,包括腾讯、字节、蚂蚁金服等在内的大厂均对图数据库做了布局。

从目前业界流行的图数据库产品来看,主流的架构主要分为两类:计算、存储分离的分布式架构和以主-备架构为代表的高可用架构。

前者的典型代表包括Tiger、Janus、Nebula等。这种架构下系统一般包括计算节点、存储节点和元数据管理节点。优势是通过Share Nothing的方式可以实现存储规模和计算能力弹性扩展,非常适用面向海量数据万亿大图场景。缺点是计算和存储一般跨节点部署,查询时会带来较大的跨网络数据交互开销,另外可能有数据热点问题。

后者的典型代表包括阿里云GDB、Neptune、Neo4j等。 这种架构下系统一般只有主节点和备节点。主节点提供读、写服务,备份通过提供stand-by形式提供主异常时服务切换。优势是架构轻量, 用户使用体验好,比较适合中小规模的用户。缺点是存在存储规模和计算能力的瓶颈, 另外如果存储模型 和 计算逻辑不一致的化,会存在数据转换,开销会比较大。对阿里云GDB而言,由于采用Cloud Native的架构,存储和计算实质上也可以独立扩缩容, 存储规模一般可以达到数百亿规模,计算既可以垂直升配,也可以水平扩容到最多15个只读节点。

不仅华为、字节跳动等企业纷纷推出自研的图数据库产品,产学研深度合作也取得了新的突破。比如,清华大学与海致科技成立了高性能图计算院士专家工作站,联合推出的分布式图数据库产品已展露优异的特性,混合事务和分析处理、万亿级大图的亚秒级查询等性能目前都处于业界领先的技术水平。相信不久的将来,随着产学研用各方进一步形成合力,图数据库将实现从技术到产业的全面突破性发展,一个国产图数据库的时代一定会到来。

文章来源:中国青年网,鞭牛士,钛媒体APP

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...