大宏图,小规模,图数据库市场持续升温,到底有哪些优势呢?

3806 字丨阅读本文需 9 分钟

随着大数据时代的到来,传统的关系型数据库由于其在数据建模和存储方面的限制,变得越来越难以满足大量频繁变化的需求。关系型数据库,尽管其名称中有“关系”这个词,却并不擅长处理复杂关系的查询和分析。

另外,关系型数据库也缺乏在多服务器之上进行水平扩展的能力。基于此,一类非关系型数据库,统称“NoSQL”存储应运而生,并且很快得到广泛研究和应用。NoSQL(Not Only SQL,非关系型数据库)是一类范围广泛、类型多样的数据持久化解决方案。它们不遵循关系型数据库模型,也不使用SQL作为查询语言。其数据存储不需要固定的表格模式,也经常会避免使用SQL的JOIN操作,一般都有水平可扩展的特征。

简言之,NoSQL数据库可以按照它们的数据存储模型分4类:

键值存储库(Key-Value-stores)

列存储 (Column-based-stores)

文档库(Document-stores)

图数据库(Graph Database)

从DB-Engines发布的数据库技术类别变化趋势图(见图1)中,不难看出图数据库在近十年受到广泛关注、是发展趋势最迅猛的数据库类型。

那么,到底什么是“图数据库”?相比关系型数据库,图数据库又有哪些优势呢?

图数据库与关系型数据库的比较

图数据库(Graph Database)是指以图表示、存储和查询数据的一类数据库。这里的“图”,与图片、图形、图表等没有关系,而是基于数学领域的“图论”概念,通常用来描述某些事物之间的某种特定关系。比如在我们的日常生活中:

社交网络是图。每个社交网络的参与者是节点,我们在社交网络中的交互,例如“加好友”“点赞”就是连接节点的边。

城市交通是图。每个路口、门牌号、公交站点等都是节点,街道或者公交线路是边,将可以到达的地方连接起来。

知识也是图。每个名称、概念、人物、事件等都是节点,而类属关系、分类关系、因果关系等是边,将节点连接起来,形成庞大、丰富并且随时在演变的知识图谱。

可以说,“图无处不在”(Graphs are everywhere),也正因如此,传统关系型数据库不擅长处理关系的问题,能够被图数据库很好地解决,图数据库正是为解决这一问题而生。

其实,在某些方面,图数据库就像新一代的关系数据库,区别在于图数据库不仅存储实体,还存储实体之间的关系。关系型数据库通过“主键-外键”表示隐含的“关系”连接,但实际上这里的“关系”是关系代数中的概念,与我们现实世界中的“关系”不同。

通过将关系预先物理存储在数据库中(我们称之为“原生”),图数据库将查询性能由原先的数分钟提高到数毫秒,特别是对于JOIN频繁查询,这种优势更加明显。图2中比较了在社交网络数据集上搜索朋友圈的查询,在原生的图数据库和关系数据库的查询执行效率。显然,使用图数据库比使用传统关系数据库效率有极大提升。

作为NoSQL数据库的一种,图数据库通常不需要先定义严格的数据模式,以及强制的字段类型,这使其在处理结构化和半结构化的数据时同样得心应手。

除了存储和查询效率方面的优势,图数据库也拥有更加丰富的分析能力,我们通过比较这四类主要的非关系型数据库特点,就可以得知。

大宏图 小规模

2019 年,Gartner在数据与分析峰会上首次将图数据库列为 2019 年十大数据和分析趋势之一,并预计到 2022 年,全球图处理及图数据的应用将以每年 100% 的速度迅猛增长,2020 年保守估计为 80 亿美元。Gartner认为市场尚处于蓝海,竞争却遍布全球。

在现实中的情况却是,图数据库已经具备了比较成熟的产品及实践案例,但截止目前,图数据库的应用范围仍然较小。例如,在国内图数据库主要被应用在金融风控、推荐、社交、故障运维、销售等场景,而用户也多集中在大型金融方、电商、社交服务商等。不难看出,图数据库的应用是非常具有针对性的、高门槛的。

在国内,图数据库行业起步略晚,市场也尚未形成规模。据中国软件网记者不完全统计,目前国内出现频率较高的图数据库产品主要有一下11种,这些产品的厂商们主要有互联网厂商、大数据公司以及原生图数据库公司:

通过观察可以发现,从产品功能层面,可以将图数据库产品大致划分为三大类:偏查询类(联机事务图)、偏分析引擎类、偏图计算引擎(离线图分析)。例如,杭州欧若数网科技Nebula Graph,支持多种后端存储、计算下推、Space 支持多租户物理隔离、属性查询等;星环科技Transwarp StellarDB,面向属性图(Property Graph)的综合性分布式图数据库,能够支撑千亿边规模的超大图,为业务人员提供存储、查询和分析图的能力;腾讯云数图TGDB(Tencent Graph Database)通过支持PageRank、社群发现、相似度计算、模糊子图匹配等社群发现算法进而实现高性能图计算。

从技术层面来看,分布式图数据库成为主流。例如,蚂蚁金服的分布式图数据库GeaBase、字节跳动的分布式图数据库ByteGraph等,分布式扩展、分布式架构容灾方案等设计,从多个方面确保图数据库储存、查询、分析、计算高性能运转。

从存储方式上看,目前图数据库产品多采用连接第三方存储而非原存储方式,并不断优化性能。例如,百度安全HugeGraph图数据库,支持与Hadoop、Spark、HBase、ES等大数据系统集成以及多种Bulk Load操作,从而实现海量数据快速插入等。

从商用化上来看,原生图数据库公司实践表现不错。例如,费马科技助力京东金融强化风控等级、助力搜狗提升百倍搜索精度、助力国家电网设备节点关联分析;平安银行签约Ultipa Graph等。

从金融行业看“图”如何落地?

金融行业是图数据库应用的先锋行业,不仅从大型国有银行到股份制银行都普遍使用了企业级分布式图数据库和知识图谱平台,而且从2021年开始,一些中小型的金融机构也在积极探索和尝试图应用的商业化路径。究其原因,一方面,随着图数据技术越来越成熟,图应用的投入成本逐步走低;另一方面,从客户的业务需求来看,处理复杂关联关系的需求日趋旺盛,不断创新的图数据技术、分析手段,可以给客户带来明显的业务价值和收益,同时还可以有效解决最为迫切的监管与风控需求。

从应用需求的变化和发展来看,国内金融行业知识图谱最早是从监管和大银行发展起来的风险图谱,如反洗钱、反欺诈图谱应用。这一类图最初是同构图,整个图谱Schema可以简化抽象成只包含一类实体和一类关系,处理起来相对简单。近些年来,随着技术进步和应用场景的不断拓展,包含多种实体或关系的异构图数据源渐成主流,包括工商数据、司法数据、供应链数据、产业链数据、价值链数据、担保链数据,甚至是社交网络数据等。基于此,未来两三年,知识图谱的主战场将集中在异构知识图谱上。

从成本上看,知识图谱的应用除包括图数据源采购的费用以外,图数据库、知识图谱PaaS和图挖掘应用是主要的成本构成。也正因为如此,以前,只有大型金融机构才有资金和技术实力投入预研性质的开发或者方案选型。未来,随着能够提供全栈知识图谱解决方案的厂商逐快速崛起,图应用的商业化落地成本将随之有效降低,图应用有可能在金融全行业中落地开花。

图数据库与传统关系型数据库最大的不同之处在于关系发现和关系查询。传统关系型数据库需要多表关联,以及跨表查询才能实现关系的计算。在复杂的图查询场景中,传统关系型数据库可能会出现严重的性能瓶颈,甚至出现算不出来的现象。而分布式图数据库可以支持超大规模万亿点边计算存储场景,基于原生图存储技术,充分利用图拓扑结构和数据索引,实现图上模式挖掘和图范式查找,效率、准确性等都得到大幅度提升。

千亿级大图的查询是一个业界公认的难点,而从另一个角度说,也是最好的突破口。当初,星环科技坚定地进入图数据库领域,也是希望发挥自身的技术优势,在图数据库领域闯出属于自己的一片天地。星环科技从来不打无准备之仗,其底气在于,在异构知识图谱领域已经拥有大量技术储备,并且面向未来3~5年的技术发展,进行了充分准备。事实胜于雄辩,星环科技自研的分布式图数据库StellarDB不仅能够支持万亿边规模的图数据存储,而且具有查询速度快、分析能力强、稳定性高等特点,可以支持丰富的图分析算法,性能表现十分优异。

随着StellarDB快速落地上线,客户不仅可以稳定地为上层业务提供查询业务,同时还可降低集群节点数量,以及数据导入成本。StellarDB具备完整的企业级功能,如用户认证、权限管理、数据热备份、资源控制等,具备高性能的图查询能力,包含近20种常见图算法。StellarDB与大数据系统紧密融合,可配合Hadoop、Spark、Kafka等大数据系统构建复杂应用。StellarDB支持SQL操作和图数据查询,可处理结构化数据和图数据。

星环科技以领先的图数据技术,为用户打通了从底层的关系型数据库、大数据平台,到中层的图数据库,再到上层知识图谱应用的全栈产品通路,实现了从最底层独立的“点”分析到关系的“线”分析,再到事件的“面”分析,最终形成行业全面的“体”分析的全栈智能分析赋能。星环科技从点到面再到体的一站式分析工具,可以为用户节省大量开发成本和基础算力,并显著提升分析性能。

如今,星环科技StellarDB已经在金融等众多行业得到了广泛部署。比如,星环科技帮助监管和头部金融机构打造了多个监管、集团派系知识图谱,以及对公知识图谱、零售知识图谱等。

图数据库的未来展望

在图数据库出现并兴起的十余年间,它在各个领域都得到了成功的应用,并且产生了众多创新性的解决方案。

在社交平台的“网络水军”识别方面,通过分析用户的关系图特征、结合传统的基于用户行为和用户内容的发现方法,可以有效提高预测的准确性和鲁棒性。

在金融领域,图和图分析帮助机构更高效地发现异常的关联交易,以赢得反洗钱战争。

在电力、电信行业,图数据库帮助管理复杂庞大的设备和线路网络,并及时为故障分析根源、估算影响。

在制造、科研、医药等领域,图数据库广泛用于存储和查询知识图谱,成为大数据管理、数据分析和价值挖掘乃至人工智能技术领域的重要支撑。

在可预见的未来内,图数据库与人工智能技术的结合应用将会带来更多创新和飞跃。图数据库至少能在以下四个领域帮助提升AI能力。

第一,知识图谱,它为决策支持提供领域相关知识/上下文,并且帮助确保答适合于该特定情况。

第二,图提供更高的处理效率,因此借助图来优化模型并加速学习过程,可以有效地增强机器学习的效率。

第三,基于数据关系的特征提取分析可以识别数据中最具预测性的元素。基于数据中发现的强特征所建立的预测模型拥有更高的准确性。

第四,图提供了一种保证AI决策透明度的方法,这使得通过AI得到的结论更加具有可解释性。AI和机器学习具有很大的应用潜力,而图解锁了这种潜力。这是因为图数据库技术支持领域相关知识和关联数据,使AI变得更广泛适用。

除此以外,近年来,云端部署的图数据库(SaaS/DaaS)成为了又一个发展趋势。国内的众多大厂纷纷推出自研的云端图数据库产品,例如百度的HugeGraph、阿里的GDB、腾讯的TGDB、华为的GES图计算引擎。

就总体趋势而言,我们能够预见,大数据时代,数据缺失不再是最大的挑战,我们渴求的是挖掘数据价值的能力,而数据的价值很大一部分在于数据之间的关联。图数据库和图分析作为处理关联数据最有效的技术和方法,一定会继续大放异彩,书写数据库应用的新篇章。

来源:CSDN,中智观察,云报

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:IT干货铺
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...