数据库发展步入深水区,一文回顾2022大事件、关键词和趋势

数据包 2023-01-05
6905 字丨阅读本文需 15 分钟

数据仓库领域正发生着翻天覆地的变化,不管是市场维度,还是技术维度。

市场层面,过去的主流数据仓库榜单被国外的几家所霸占:Redshift、Snowflake、Actian……如今,可以说百花齐放百家争鸣,国产数据库也纷纷踏入了大众的视野。信通院2022年6月发布的数据显示,全球数据库产品供应商有363家,其中中国数据库供应商达116家。如今,越来越多的行业、越来越多的场景都能看到国产数据仓库的身影。

技术层面,进化不止,短短几年时间,集中式不再一家独大,分布式增长迅猛,在越来越多的关键行业、核心场景都证明了自己,登上了更广阔的舞台。截至当前,融合统一、云原生、实时分析三大趋势已经成为数据仓库一致的追求。

本文重点聚焦数据库领域在 2022 年的重要进展、动态,希望能帮助你准确把握 2022 年数据库领域的核心发展脉络,在行业内始终保持足够的技术敏锐度。

对于数据库技术领域而言,2022 年是一个激动人心的重要年份。过去一年,数据库技术仍围绕着云原生、Serverless、分布式等核心方向快速发展,但是相较于前几年,数据库市场的客户逐渐成熟,对产品的理解更加理性,相应地要求也越来越高。不难看出,数据库领域的发展已经步入深水区。

2022 年数据库领域大事件回顾

1 月 21 日,北京国家金融科技认证中心正式发布《2021 年分布式数据库标准符合性检测参检机构名单》,腾讯云分布式数据库 TDSQL 名列其中,成为首款通过检测的互联网公司数据库产品。

2 月 11 日,Elastic 8.0 版本正式发布,重点改进 Elasticsearch 的矢量搜索功能,并提供对现代自然语言处理模型的原生支持、进一步简化数据上线过程,以及精简的安全防护体验。在速度、扩展幅度、相关性和简便性方面,Elastic 8.0 版本迎来了一个全新的时代。

2 月 17 日,由信通院主办的国内首款金融数据库性能测试工具开源发布会在线上召开。会上正式开源了金融数据库性能测试工具 DataBench-T。

4 月 1 日,TiDB 宣布正式开源分析引擎 TiFlash,它是为 TiDB 提供 HTAP 能力的重要组成部分。TiFlash 的框架代码基于 ClickHouse ,但和 ClickHouse 拥有完全不同的擅长场景,TiFlash 完全偏重于事务性数据的分析。

4 月,星环科技升级多模型大数据基础平台 TDH 9.0,实现 9 种存储引擎支持 10 种数据模型。

4 月 27 日,Redis 正式发布 7.0 版本,添加了近 50 个新命令和选项来支持这种演变并扩展 Redis 的现有功能。

5 月 12 日,在谷歌 I/O 2022 开发者大会上,谷歌云平台 GCP 宣布推出 AlloyDB for PostgreSQL,这是一个全托管的、与 PostgreSQL 兼容的数据库服务。

5 月 16 日,在中国信通院组织的第十四批“可信数据库”产品能力评测中,华为云云数据库GaussDB(for openGauss)完成信通院首个防篡改数据库产品测评。

6 月 8 日,MongoDB World 2022 大会上,MongoDB宣布推出可查询加密功能和关系型数据库迁移工具(Relational Migrator),借助这项技术,不具备密码学相关经验的开发者可以在不影响性能的情况下,以简单直观的方式查询经加密的敏感数据。

6 月 29 日,武汉达梦数据库股份有限公司正式递交招股说明书,拟科创板挂牌上市。根据招股说明书,达梦本次公开发行股票数量不超过 1900 万股,计划募资 23.51 亿元。

6 月 29 日,一体化实时 HTAP 数据库 StoneDB 正式开源。StoneDB 是一款支持行列混存+内存计算的 HTAP 数据库,采用自主研发的存储和计算引擎,可将 MySQL 的分析性能提高 100 倍。

7 月 23 日消息,蚂蚁集团时序数据库 CeresDB 正式开源,并发布开源版本 CeresDB 0.2.0 。蚂蚁集团表示:“通过开源,希望帮助用户解决时间序列数据存储的水平扩展与高可用的痛点,乃至针对时序数据的复杂分析计算能力的需求”。

8 月 10 日,OceanBase4.0 (小鱼)正式发布,这是业内首个单机分布式一体化数据库,可以实现单机部署并兼顾分布式架构的扩展性与集中式架构的性能优势,RTO 从 30 秒迈入 8 秒,进入真正的秒级容灾时代。发布会还宣布全球开服 OceanBase Cloud。

8 月 13 日,涛思数据发布 TDengine 3.0 版本,该版本带来了几大核心特性,包括云原生架构、流式计算,还增强了数据订阅功能;更重要的是,3.0 系列版本开始提供了全平台支持,服务器/客户端均已支持 Linux、Windows 和 MacOS。

10 月 18 日,“国产大数据基础软件第一股”星环科技正式登陆科创板,发售价为每股 47.34 元,开盘后报每股 72 元,大涨 52%。

10 月 18 日,Oracle 宣布推出MySQL HeatWave Lakehouse云数据湖库。据 Oracle 称,MySQL HeatWave 可以在多个云上提供一种集成服务,用于事务处理、跨数据仓库和数据湖的分析、以及无需 ETL 的机器学习。

11 月,MariaDB团队宣布正筹备在中国成立实体公司,并积极准备拓展中国市场。明年,MariaDB 将有一个专门的本地团队为中国市场服务,并将发布新产品,如 Xpand(MariaDB 的分布式 SQL 数据库),此外,MariaDB 团队还计划将云版本 SkySQL 引入中国市场。

12 月 19 日,MariaDB Plc.公司表示,已经完成了与特殊目的收购公司 Angel Pond Holdings Corporation 的合并,合并后的公司更名为 MariaDB Plc.。MariaDB 的普通股和权证已于 12 月 19 日登录纽约证券交易所,此次合并已获得两家公司董事会和股东的批准。

数据库领域年度关键词

数据库并不是一个新领域,它已经发展了 40 年,作为基础软件之一,它是一个既传统又古老的领域。但近几年数据量爆发、云化趋势加深等因素,正在推动数据库领域进入新的发展阶段。

InfoQ 在采访国内外多名资深数据库专家后得出了 2022 年数据库领域的三大关键词,其中,“融合”一词成为了被提及次数最多的词语。

1、融合

这里的提及的“融合”不仅仅指的是数据库各种类的融合,更包括软硬件融合、混合负载融合、分布式与单机的融合、多模态的融合等,但实际上融合问题并不好解决。

比如,软硬件融合就是个难题。数据库经历了多年发展,其底层架构和算法针对过去的硬件网络等基础设施经过充分设计,以获得最佳性能,但是随着新型硬件的发展,例如新 CPU 架构、新存储介质,以及新网络架构的发展与成熟,数据库底层机制也必须有相应的调整,才能充分发挥新硬件的特性。

此外,分布式与单机的融合也有一定技术难度。单机数据库相较于分布式数据库,由于不需要大量的分布式事务处理,所以单核性能会高于分布式数据。但是数据库面临的市场是一个复杂多样的市场,有一些场景可能一个单机数据库就能支持,用分布式显然有点“大材小用”,但是有一些场景又需要分布式数据库以支撑海量数据和海量交易。那么如何在数据库规模比较小的时候,表现为一个单机数据库,不需要复杂的分布式事务机制,而随着数据规模增长,又能自动生长为一个分布式数据库,而不需要大规模的数据库迁移等,就是一个必须考虑的关键问题。

以TDSQL为代表的多家厂商开始尝试采用对等架构实现存算分离与存算一体的兼顾,使数据库产品能兼顾不同规模的场景,取得不同的平衡;而 OceanBase 则推出单机分布式一体化架构,打造更加开放、灵活、高效、易用的下一代企业级分布式数据库。实现了在线水平扩展的同时不增加分布式相关 overhead,从而能够像集中式数据库一样部署在小规格的服务器上,做到单节点性能达到甚至超越集中式数据库的水平。

AI 与数据库的融合也在进一步加深。进入 2022 年以后,AI 和数据库融合趋势愈加明显,AI 已经成为企业挖掘数据商业价值的最大推动力。过去,企业数据可用性不高,样本容量也有限,无法在毫秒内分析大量数据;而人工智能和机器学习技术,让企业在数据容量和数据源可用性方面有了质的飞越,才有了真正的大数据访问和实时处理能力。

大统一是诸多自然科学领域的最终梦想,而数据库的大融合也是数据库从业人员的梦想,但是这里面往往涉及到诸多因素的权衡,以及要面临越来越复杂多样的场景,现阶段还很难做到完美的统一。

2、数据云

数据云也是今年被频频提及的关键词之一,它更多是一个数据基础设施的概念。从技术的角度来讲,数据云是为了提升整个数据分析能力,提升数据分析的实时性;从业务角度来讲,数据云可以帮助数据库厂商在云上拓展更多不同客户。

可以看到,今年很多开源数据库产品都发布了自己的 Cloud 版本,也就是云服务订阅版本,包括 TiDB、OceanBase、SelectDB、TDengine等等国内知名数据库厂商。这无疑是开源数据库产品探索商业化一个比较好的路线。相较于云厂商凭借数据库的深度软硬件协同提供产品竞争力,开源厂商基于多个云平台提供的多云容灾切换方案,也有一定的市场发展空间。

3、Serverless

这几年,Serverless 数据库大火,被称为是下一代数据库的演进方向。事实上,Serverless 数据库并非这两年才有的新概念。早在 2004 年,由于亚马逊的电商网站面临数据库扩展性的挑战,Serverless 数据库的探索之旅便已经开始。

Serverless 数据库可以根据应用程序的需求自动扩缩容,并内置高可用和容错能力。Serverless 数据库背后由云服务商动态管理计算资源分布,云服务商将计算资源变成一个池子,用户无需创建实例,就能快速完成部署。

具体到数据库层面,用户只要使用了基于 Serverless 特征的数据库,就可以基于函数运行所消耗的内存和执行时间,按使用量计费,极大地降低了数据库的使用成本。

Serverless发展至今,Serverless 数据库开始强调极致的资源分配曲线与业务实际需求曲线匹配,目前已经可以做到秒级的按需计费,既能提高资源利用率,还不影响业务的突发流量,因此也被越来越多企业所采用。

数据库领域 2022 年的趋势

作为三大基础软件之一,如今数据库领域面临着重大发展机遇——据 IDC 预测,2022 年全球数据管理软件市场规模将达到 849.7 亿美元,到 2026 年将增至 1378.2 亿美元。如此大的市场空间,到底潜藏着哪些机遇和挑战?放眼即将过去的 2022 年,有哪些重要趋势值得关注?

1、自研分布式数据库迎来落地爆发期

在云计算发展和国产化趋势的双重驱动下,国产数据库需求迎来爆发式增长。在过去数年间,分布式数据库发展迅速,成为面对海量规模及高并发等场景的利器。通过数年实践,产品的基本功能、稳定性、性能等方面已趋于成熟,各数据库厂商开始在产品的易用性、可观察性、诊断能力、生态兼容等方向发力,并陆续有成果落地。

回首过去一年,随着国产数据库合作生态的日渐壮大以及对降本增效的迫切需求,传统行业纷纷开启了向分布式数据库转型升级之路。国产数据库投产的广度和深度持续增加,广度即商机增多,这一方面给诸多厂商提供了很大的机会,另外一方面也给当前尚不成熟的国产数据库产品能力和服务能力带来了更大的挑战;从深度来看,分布式数据库开始真正落地于金融业、证券业、餐饮业、汽车业、房地产业等传统企业的核心系统中。

例如 TDSQL 今年就服务了 TOP 10 银行中的 7 家,OceanBase 也在富滇银行、招商证券、红塔银行等企业关键系统中大显身手,服务了头部金融机构中的四分之一。这些无疑都证明了国产自研数据库的能力,但也对数据库的稳定性、数据一致性等提出了更高要求。

2、上云趋势持续火热

近日,Gartner 发布了最新的数据库中国市场指南报告, 报告指出中国数据库行业将加速增长并逐步向云端迁移。

其实数据库的上云趋势并不是今年才有的,早在几年前,许多国外公司甚至许多民营医院已经将数据库部署在云端。以往,金融、政府和公共服务等特定行业的组织对数据和信息保密要求较高,因此对公有云的数据安全、数据主权和法规合规有顾虑,更倾向私有云或本地部署。然而,Gartner 观察到一些国内企业、机构正考虑将核心任务事务型数据库迁移到公共云,这反映出最近行业对公共云的顾虑正在下降,混合云模式比重将进一步提升。

云数据库凭借按需付费、按需扩展、高可用性以及存储整合等优势已经在海外市场占据了大半市场份额。据业内权威人士称,美国至少有超过一半的数据库跑在云上。虽然目前国内数据库上云趋势还未如国外一样迅猛,但这一趋势已经十分明显。

3、对数据安全的重视达到了前所未有的程度

近年来,全球关键信息基础设施网络安全事件层出不穷,涉及电力、石油、制造等国计民生领域。就在 2022 年初,因遭到勒索软件的攻击,位于荷兰阿姆斯特丹和鹿特丹、比利时安特卫普的几处港口的石油装卸和转运受阻,让国际油价进一步走高到近年来最高的水平,数据面临的威胁从未像今天这样严重。

当前,用户主要面临的数据库安全威胁包括 SQL 注入攻击、缓冲区溢出、默认设置或弱口令、配置错误、用户帐户破坏等。数据被泄露或篡改可能导致企业面临无法通过审计导致的资产负债、监管罚款、盈利受损或客户投诉等诸多负面影响,作为承载数据的数据库系统,其安全性也关乎企业生存发展。

尤其是今年,政企各界对数据安全的重视达到了前所未有的程度。今年 8 月,国家互联网信息办公室编制了《数据出境安全评估申报指南(第一版)》,对数据出境安全评估申报方式、申报流程、申报材料等具体要求作出了说明。10 月 12 日,国家市场监督管理总局(国家标准化管理委员会)发布公告,批准 2 项国家标准。其中,《信息安全技术 关键信息基础设施安全保护要求》作为 2021 年 9 月 1 日《关键信息基础设施安全保护条例》正式发布后的第一个关基标准,将于 2023 年 5 月 1 日实施。

4、产研结合,深化数据库人才培养

除了数据及数据库系统的安全外,今年数据库行业内的人才生态培养也迈向了新高度。为了推动高校与企业强化创新合作,促进创新链产业链深度融合,教育部、工业和信息化部、国家知识产权局决定共同组织开展“千校万企”协同创新伙伴行动(简称“千校万企”行动)。该行动主要目标就是把这些与数据库等“卡脖子”技术相关的企业与高校联动起来,把基础软件这一数字化转型的底座构建得更扎实、更安全。

以星环科技为例,今年星环科技与国内多所知名高校达成合作,共同培养创新方面人才,通过这种创新对接的合作方式,运用信息化等手段建立完善校企对接常态化机制,降低对接成本,提升对接效率,促进协同创新。

数据库领域产业格局

1、国产数据库备受瞩目

2022年10月国家发改委做《关于数字经济发展情况的报告》提到,集中力量推进关键核心技术攻关,牢牢掌握数字经济发展自主权,加大集成电路、新型显示、关键软件、人工智能、大数据、云计算等重点领域核心技术创新力度。着力提升基础软硬件、核心电子元器件、关键基础材料和智能制造装备的供给水平,加快锻造长板、补齐短板。

打造原创技术策源地,强化原创技术供给,建设新型创新主体,培育创新生态体系。数据库作为中国工业发展的35项“卡脖子”技术之一,长期以来被Oracle、IBM、微软等美国巨头占据。

在中美贸易摩擦及云计算等新技术变革背景下,国产数据库备受瞩目。从武汉达梦等到阿里Oceanbase、华为GaussDB、柏睿等,纷纷布局国产数据库。从传统关系型数据库到NoSQL、再到NewSQL,从集中式数据库到分布式数据库,从OLTP到OLAP、再到HTAP,数据库技术持续迭代。

2、国内市场高速增长

当前,新一轮科技革命迅猛发展,数据规模高速增长、数据类型愈发丰富、数据应用快速深化,促使数据库产业再次进入创新周期中的混沌状态。全球范围内创新型数据库产品快速涌现,市场格局剧烈变革,我国数据库产业进入重大发展机遇期。据中国信通院统计,2020年,全球数据库市场规模达到671亿美元,中国数据库市场规模约为240.9亿元,占比约5.2%,预计到2025年,全球数据库市场规模将达到798亿美元,中国数据库市场总规模将达到688亿元,市场年复合增长率(CAGR)为23.4%,市场空间广阔。

中国数据库市场呈高速增长,由多方面因素促成:

1)政策利好,国家大力鼓励国产数据库厂商的发展;

2)需求拉动,国产化和数字化建设带动需求的爆发增长;

3)供给端多元厂商发力,传统、初创和跨界厂商厚积薄发,产品和技术经历了工程实践的打磨走向成熟;

4)国内企业对基础软件的付费意愿和IT支出也在逐年提升,有利于市场的长期发展。

3、本土厂商逐步追赶上国际厂商

借助政策红利,国产厂商经过多年的技术研发和经验积累,市场份额在逐年提升。2000年左右成立的传统国产数据库厂商近年来开始发力,他们从购买源码、借助开源走向自主研发,实力不断增强,在党政军市场有着较好的表现,同时也开始向能源电力、运营商、交通等其他行业快速拓展。此外,初创厂商、云厂商、ICT厂商等近年来也开始发力数据库市场。

国产厂商的创新能力和市场影响力正在逐步扩大,并且用户认可度得到了极大提升,既有基于自主研发的柏睿数据、星环科技、阿里云等企业,也有基于开源代码不断创新的瀚高软件等企业。

相比之下,国外数据库厂商如甲骨文、微软、IBM等,虽然在OLTP的核心场景还拥有较高的市占率,但整体市场份额在被逐渐侵蚀。

数据库未来展望

如前文所述,在刚刚过去的 2022 年,以云原生和分布式为主的新型数据库开始大规模落地于各行业核心系统,此外,各类型数据库趋于融合的趋势也愈加明显。未来,数据库将如何发展?InfoQ 综合多位受访专家的思考,主要概括为以下几点:

1、国内数据库厂商 3~5 年内将仅存个位数

随着基础软件领域成为资本热土,在 2020-2021 年获得融资的国产数据库公司就超过 40 家。值得一提的是,仅 2021 年一年,新成立数据库公司就超过 30 家,获得新一轮融资的企业多达 20 家。

资本的青睐带来了过去几年数据库厂商的井喷增长,但资本过热也带来了相应的弊端:产品能力参差不齐、同质化现象严重、技术储备力量不足......

虽然近年来国内数据库产业发展迅速,借助开源和云计算,中国数据库有机会在全球市场占据一席之地,但国内数据库市场整体相较于海外已经发展了四五十年来说还稍显不足。

多位受访人表示,2021 年,中国数据库资本处于泡沫的最顶峰,未来三到五年间,数据库厂商数量将会越来越少,因为客户和应用开发商不可能用那么高的成本去适配和选用不同的数据库,这个市场不可能容得下上百种数据库。随着客户逐渐开始使用国产数据库,只有那些个别坚持在数据库领域投入、并踏实打磨数据库产品的长期主义者才能提供优良的服务,才能最终留存下去。

2、抢夺本土市场之外,出海成为新增量

IDC 发布的《2021 年下半年中国关系型数据库软件市场跟踪报告》显示,前八强中除了亚马逊云科技、Oracle 和微软外,其余 5 家都是中国厂商,合计占据超过 74%的市场份额。

在本土做大做强后,数据库出海成为国产厂商的全新增量逻辑,欧美线路和东南亚线路是国产厂商出海的优选项。两年前,腾讯云数据库 TDSQL 就已经在印尼 Bank Neo Commerce 银行新核心系统完成搭建并正式投入使用;蚂蚁集团的 Oceanbase 先后服务过印度、印尼、菲律宾、巴基斯坦等国家的金融科技公司,并开始进军北美市场;涛思数据、星环科技等企业的出海业务也在持续增长;以 PingCap、Zilliz、Singularity 等为代表的数据库创业公司,则在自成立之初就定位国际化。

但中国企业出海面临的信任度、监管、地理位置、地缘政治等障碍也不可回避,上云、开源、新技术敏感度成为除基础技术以外,国产数据库顺利出海的关键要素。

3、开源与商业化相辅相成

自 21 世纪以来,数据本身的增长速度极快,尤其随着最近几年各行各业数字化,例如智能汽车、物联网、VR/AR 等等,每年产生和存储的数据始终保持高增长率。但是从管理数据规模来看,包括 Oracle/微软/Teradata 等这类传统商业数据库的比重逐渐在降低,而开源数据库所占比重越来越大。

据 DB-Engines 发布的 2022 年 12 月全球数据库排行榜可以看到,以 MySQL、PostgreSQL、MongoDB 为代表的开源数据库占据着数据库市场的半壁江山,对于这些软件而言,开源是其取得成功的关键。

虽然开源的增长会对传统商业数据库市场带来一定冲击,但开源也助力了云数据库市场的发展。客观来讲,开源本身跟商业不冲突,有很多开源数据库与云这种结合产生了很多新的商业模式,例如很多开源数据库推出了云服务版,可以做多云容灾部署,为客户提供订阅类服务。

此外,云厂商本身也提供很多开源数据库的服务,例如 MySQL、PostgreSQL 等,开源一定程度也助力了云数据库这种订阅类商业模式的发展。

文章来源: InfoQ,大数网,行业报告研究院

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:数据包
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...