新一代数据基础软件崛起,国产数据库领域再起风云,湖仓一体化会是未来吗?

IOT生产队 2022-08-16

大数据数据仓库数据库软件

4071 字丨阅读本文需 9 分钟

从“十三五”规划到“十四五”规划的产业政策从“以产业结构调整为重点”到“以促进产业升级为重点”的变化中,我们不难发现,随着我国经济建设进入新阶段,需要不断发掘新的增长点、将生产力要素转化为经济潜能。科技创新作为探索经济发展新动力的主要突破口,正在被提到前所未有的高度。

同时,近年来,伴随着全球宏观经济形势的复杂化,在日趋激烈的大国博弈中,突破关键核心技术、保障产业链的完备性和稳健性作为提升宏观经济抗风险能力的重要抓手,正在驱动更多的力量向实现技术突破、探索科技前沿的方向聚集。

破解核心技术“卡脖子”的问题,对于迈入改革深水区的我国经济发展而言,已成为重中之重。

以数据库技术为例,作为与芯片、操作系统并称的IT领域技术难度最大的三座大山之一,我国银行、电信等关键行业在数据库领域长期遭遇着国际大公司的垄断。信通院的一项调研数据显示,2018年,某国外公司在银行各类数据库的应用占比仍超过60%,遥遥领先。

而随着数据的价值在互联网时代被重塑,海量、结构多样、来源广泛的数据如何快速存储、检索、应用,形成价值链闭环已经成为我国产业数字化转型中必须面对的难题。

由于掌握数据使用和管理的话语权和主动性,不仅对我国的科技发展起到基座性的支持作用,还是我国产业升级中的核心竞争力的体现,在数据库领域实现突围,补全“短板”已经时不我待。

所幸,从传统信息化时代到大数据时代的切换带来了系统解耦与利益重分配的契机,为我国数据库技术的发展和应用带来了新的红利期。Gartner在《2022年数据库中国市场指南》中预测,到2025年,海外厂商在中国分析型数据库市场的份额将只剩30%,在中国交易型数据库市场也只剩50%左右。

在从传统关系型数据库到云原生数据库的浪潮中,我国企业正在不断追赶超越。

某种程度上,这种变化的背后,暗示着全球数据库已经进入发展的黄金时代,也是一众新兴势力的加速崛起之年。

近日,国内新一代湖仓一体数据智能基础软件领域独角兽——滴普科技完成1.1亿规模的B+轮融资,这一赛道在国内也正式迎来爆发式增长。

实际上,随着企业数字化驶入深水区,对于数据使用场景也呈现多元化的趋势,过去容易被企业忽略的数据,开始从幕后走到台前,如何为众多场景选择一款合适的数据库产品,已经成了很多CIO和管理者的一道必答题。但有一点可以确定的是,过去的数据库已难以匹配眼下日益增长的数据复杂度需求,基于扩展性和可用性划分,分布式架构突破单机、共享、集群架构下的数据库局限,近些年发展态势迅猛。

湖仓一体到底是什么?

在湖仓一体出现之前,数据仓库和数据湖是被人们讨论最多的话题。正式切入主题前,先跟大家科普一个概念,即大数据的工作流程是怎样的?这里就要涉及到两个相对陌生的名词:数据的结构化程度和数据的信息密度。前者描述的是数据本身的规范性,后者描述的是单位存储体积内、包含信息量的大小。

一般来说,人们获取到的原始数据大多是非结构化的,且信息密度比较低,通过对数据进行清洗、分析、挖掘等操作,可以排除无用数据、找到数据中的关联性,在这个过程中,数据的结构化程度、信息密度也随之提升,*后一步,就是把优化过后的数据加以利用,变成真正的生产资料。

简而言之,大数据处理的过程其实是一个提升数据结构化程度和信息密度的过程。在这个过程中,数据的特征一直在发生变化,不同的数据,适合的存储介质也有所不同,所以才有了一度火热的数据仓库和数据湖之争。

我们先来聊聊数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,主要用于支持管理决策和信息的全局共享。简单点说,数据仓库就像是一个大型图书馆,里面的数据需要按照规范放好,你可以按照类别找到想要的信息。

就目前来说,对数据仓库的主流定义是位于多个数据库上的大容量存储库,它的作用在于存储大量的结构化数据,为管理分析和业务决策提供统一的数据支持,虽然存取过程相对比较繁琐,对于数据类型有一定限制,但在那个年代,数据仓库的功能性已经够用了,所以在2011年前后,市场还是数据仓库的天下。

到了移动互联网时代,数据量呈现“井喷式”爆发,数据类型也变得异构化。受数据规模和数据类型的限制,传统数据仓库无法支撑起互联网时代的商业智能,随着Hadoop与对象存储的技术成熟,数据湖的概念应用而生,在2011年由James Dixon提出。

相比于数据仓库,数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施。它就像一个大型仓库,可以存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据,数据湖通常更大,存储成本也更为廉价。但它的问题也很明显,数据湖缺乏结构性,一旦没有被治理好,就会变成数据沼泽。

从产品形态上来说,数据仓库一般是独立标准化产品,数据湖更像是一种架构指导,需要配合着系列周边工具,来实现业务需要。换句话说,数据湖的灵活性,对于前期开发和前期部署是友好的;数据仓库的规范性,对于大数据后期运行和公司长期发展是友好的,那么,有没有那么一种可能,有没有一种新架构,能兼具数据仓库和数据湖的优点呢?

于是,湖仓一体诞生了。依据DataBricks公司对Lakehouse的定义,湖仓一体是一种结合了数据湖和数据仓库优势的新范式,在用于数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。湖仓一体是一种更开放的新型架构,有人把它做了一个比喻,就类似于在湖边搭建了很多小房子,有的负责数据分析,有的运转机器学习,有的来检索音视频等,*于那些数据源流,都可以从数据湖里轻松获取。

就湖仓一体发展轨迹来看,早期的湖仓一体,更多是一种处理思想,处理上将数据湖和数据仓库互相打通,现在的湖仓一体,虽然仍处于发展的初期阶段,但它已经不只是一个纯粹的技术概念,而是被赋予了更多与厂商产品层面相关的含义和价值。

这里需要注意的是,“湖仓一体”并不等同于“数据湖”+“数据仓”。现在很多公司经常会同时搭建数仓、数据湖两种存储架构,一个大的数仓拖着多个小的数据湖,这并不意味着这家公司拥有了湖仓一体的能力,湖仓一体绝不等同于数据湖和数据仓简单打通,反而数据在这两种存储中会有极大冗余度。

数据「湖仓一体」具有以下关键特征:

事务支持:在企业中,数据往往要为业务系统提供并发的读取和写入。对事务的ACID支持,可确保数据并发访问的一致性、正确性,尤其是在SQL的访问模式下。

数据的模型化和数据治理:「湖仓一体」可以支持各类数据模型的实现和转变,支持DW模式架构,例如星型模型、雪花模型等。该系统应当保证数据完整性,并且具有健全的治理和审计机制。

BI支持:「湖仓一体」支持直接在源数据上使用BI工具,这样可以加快分析效率,降低数据延时。另外相比于在数据湖和数据仓库中分别操作两个副本的方式,更具成本优势。

存算分离:存算分离的架构,也使得系统能够扩展到更大规模的并发能力和数据容量。(一些新型的数据仓库已经采用了这种架构)

开放性:采用开放、标准化的存储格式(例如Parquet等),提供丰富的API支持,因此,各种工具和引擎(包括机器学习和Python / R库)可以高效地对数据进行直接访问。

支持多种数据类型(结构化、非结构化):Lakehouse可为许多应用程序提供数据的入库、转换、分析和访问。数据类型包括图像、视频、音频、半结构化数据和文本等。

支持各种工作负载:支持包括数据科学、机器学习、SQL查询、分析等多种负载类型。这些工作负载可能需要多种工具来支持,但它们都由同一个数据库来支撑。

端到端流:实时报表已经成为企业中的常态化需求,实现了对流的支持后,不再像以往一样,为实时数据服务构建专用的系统。

那说完了湖仓一体化的特性,它到底解决了什么问题呢?

这些年来,在许多的公司里,数仓和数据湖一直并存且各自发展着,也没有遇到过太过严重的问题。但是仍有一些领域有值得进步的空间,比如:

数据重复性:如果一个组织同时维护了一个数据湖和多个数仓,这无疑会带来数据冗余。在最好的情况下,这仅仅只会带来数据处理的不高效,但是在最差的情况下,它会导致数据不一致的情况出现。Data Lakehouse统一了一切,它去除了数据的重复性,真正做到了Single Version of Truth。

高存储成本:数仓和数据湖都是为了降低数据存储的成本。数仓往往是通过降低冗余,以及整合异构的数据源来做到降低成本。而数据湖则往往使用大数据文件系统(譬如Hadoop HDFS)和Spark在廉价的硬件上存储计算数据。而最为廉价的方式是结合这些技术来降低成本,这就是现在Lakehouse架构的目标。

报表和分析应用之间的差异:报表分析师们通常倾向于使用整合后的数据,比如数仓或是数据集市。而数据科学家则更倾向于同数据湖打交道,使用各种分析技术来处理未经加工的数据。在一个组织内,往往这两个团队之间没有太多的交集,但实际上他们之间的工作又有一定的重复和矛盾。而当使用Data Lakehouse后,两个团队可以在同一数据架构上进行工作,避免不必要的重复。

数据停滞(Data stagnation):在数据湖中,数据停滞是一个最为严重的问题,如果数据一直无人治理,那将很快变为数据沼泽。我们往往轻易的将数据丢入湖中,但缺乏有效的治理,长此以往,数据的时效性变得越来越难追溯。Lakehouse的引入,对于海量数据进行catalog,能够更有效地帮助提升分析数据的时效性。

潜在不兼容性带来的风险:数据分析仍是一门兴起的技术,新的工具和技术每年仍在不停地出现中。一些技术可能只和数据湖兼容,而另一些则又可能只和数仓兼容。Lakehouse灵活的架构意味着公司可以为未来做两方面的准备。

为什么说湖仓一体是未来?

那么,湖仓一体凭什么能成为未来新趋势呢?换而言之,在数据智能时代,湖仓一体会不会成为企业构建大数据栈的必然选择呢?

实际上,从技术维度和应用趋势来看,对于高速增长的企业来说,选择湖仓一体架构来替代传统的独立仓和独立湖,已经成为不可逆转的趋势。

一个具有说服力的例证是,现阶段,国内外各大云厂商均陆续推出了自己的“湖仓一体”技术方案,比如亚马逊云科技的Redshift Spectrum、微软的Azure Databricks、华为云的Fusion Insight、滴普科技的FastData等,这些玩家有云计算的老牌龙头,也有数据智能领域的新势力。

事实上,架构的演进是由业务直接驱动的,如果业务侧提出了更高的性能要求,那么在大数据架构建设的过程中,就需要数据库架构建设上进行技术升级。以滴普科技为例,依托实时湖仓平台FastData,基于对先进制造、生物医药、商品流通、金融科技等行业的深度洞察,滴普科技从实际场景切入,为客户提供了一站式的数据智能平台技术建设方案。

滴普科技认为,“在数据分析领域,湖仓一体是未来。它可以更好地应对AI时代数据分析的需求,在存储形态、计算引擎、数据处理和分析、开放性以及面向AI的演进等方面,要*于过去的分析型数据库。”以AI应用层面为例,湖仓一体架构天然适合AI类的分析(包括音视频非结构化数据存储,兼容AI计算框架,具有模型开发和机器学习全生命周期的平台化能力),也更适合大规模机器学习时代。

一般来说,大体量的企业想要保持持续增长,往往需要依靠大量、有效的数据输出,进而实现智慧决策。很多企业出于 IT 建设能力的限制,导致很多事情没法做,但通过湖仓一体架构,让之前被限制的数据价值得以充分发挥,如果企业能够在注重数据价值的同时,并有意识地把它保存下来,企业就完成了数字化转型的重要命题之一。

我们也有理由相信,随着企业数字化转型加速,湖仓一体架构也会有更为广阔的发展空间。

来源:LinkTime_Cloud,投资界,晓曦

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:IOT生产队
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...