SaaS用上时序数据库,会发生什么化学反应?

soft6软件网 2022-03-10

时间序列大数据saas模式

3896 字丨阅读本文需 10 分钟

当一个地区发现新冠疫情,如何实现溯源?因为疫情的发展与时间密切相关,病例一个时间点出现的地方与其相关的人就成为密接。如果采用传统的关系型数据库处理这类与时间有关的数据,那么对于像美国那样一天出现上万病例的情况,数据库的性能就能以应付,等待会让人崩溃。

类似的例子还有很多,如自动驾驶的特斯拉汽车不断收集有关其环境随时间变化的数据,并根据天气条件、街道行人、车辆等无数其他变量,快速进行信息处理,并适时做出决策和调整。

生产制造、电力、化工等行业需要实时监测,检查并分析海量设备所采集和产生的数据,及时做出安全预警。同样,智能家居监控室内环境所发生的变化,以调节温度,识别入侵者等等。

处理这类随着时间点发展而变化的数据的数据库出现了,那就是时序数据库。2020年出现的新冠疫情,使全球数十亿人成为时间序列数据的消费者,以便准确及时地提供疫情相关各种统计数据。

而日益增加的物联网应用,则为时序数据库提供了广阔的舞台。目前,全球涌现的时序数据库产品高达38种,中国市场出现的时序数据库也达到十几种。

1. 通过时间序列分析挖掘宝藏

时序数据库为处理依赖于时间的数据提供了最佳支持。

您可能不知道身边有多少数序数据。电力公司正在收集您家中安装的设备的时间序列数据。您的银行交易记录会创建时间序列数据。健身监视器也会生成时间序列数据。物联网是一个由数百万台设备组成的网络,每个设备都生成时间序列数据。

随着5G技术的不断成熟,物联网技术将使得万物互联。这些设备每时每刻都会吐出大量的按照时间组织的数据,需要存储下来进行查询、统计和分析。

时间序列数据库TSDB旨在优化时序数据的处理。在时间序列数据中,每个条目都有一个时间戳,数据按时间顺序到达,时间表示信息的主轴。

时序数据库适用于管理时序数据。

一般时序数据都具备两个特点:一是数据结构简单,可以理解为某一度量指标在某一时间点只会有一个值,没有复杂的结构(嵌套、层次等)和关系(关联、主外键等)。

二是数据量大,时序数据由所监控的大量数据源来产生、收集和发送,比如IoT设备、终端、App等。

时序数据库与关系数据库有何不同?以前,时间序列数据通常也存储在传统数据库中,但是随时数序数据量的增加,其性能、扩展性等都难以满足需求。

而新发展的专用于时间序列数据处理的时序数据库是专为时序数据优化而设计的数据库,在很多方面都和传统的RDBMS和NoSQL数据库不太一样,比如它不关心范式和事务;写多于读,95%-99%的操作都是写操作;顺序读,基本都是按照时间顺序读取一段时间内的数据等。

因此,数序数据库以写性能优先,不为读取做存储优化,但是通过分布式和并发读,来提高读取的速度。

在写入的时候就考虑到读的性能问题,将统一指标、时间段的数据写入到同一数据块中,为读取进行写入优化。

时序数据库变得越来越重要,因为我们离不开它。

今天,在我们生活的环境,企业生产线上,都有很多的传感器,都配有边缘计算设施,街道、汽车、工厂、电网、卫星、衣服、电话、微波炉、牛奶容器、行星、人体等,所有东西都有或将要有传感器,都在无情地发出一系列指标和事件或时间序列数据,通过处理这些数据,发出指令,完成调控,从而实现数字化、智能化。

更多的数据点,更多的数据源,更多的监控,更多的控制,都要求支持这些新的工作负载的数据库。我们需要的是一个高性能、可扩展、专门构建的时间序列数据库。

现在,时间序列数据积累得非常快,普通数据库不是为处理这种规模而设计的。相比之下,时间序列数据库,引入了只有将时间视为一等公民时才有可能实现的效率,能够提供大规模的服务,从性能改进到更好的数据压缩。

TSDB通常还包括时序数据分析通用的内置函数和操作,如数据保留策略、连续查询、灵活的时间聚合等,可以提供更好的用户体验,并使数据分析任务更容易。

2. 近两年增长最快的数据库

时序数据库是近两年成长最快的数据库。

市场分析机构对时序数据库市场有众多分析预测,大多认为TSDB将是未来一个非常具有市场性、挑战性的数据库,现在虽然已经有这样那样的服务,但大多都有这样那样的问题,现在很难谈得上成熟。为了在物联网时代、工业4.0 时代中占有一定地位,TSDB是必须要拓展的技术。

事实上,在过去两年中,TSDB一直稳步保持增长,是成长最快的数据库类别。

不同类型数据库的成长曲线   数据来源:DB-Engines

目前,TSDB应用场景众多。

物联网、工业机器和传感器数据。设备和传感器数据是时间序列数据。通过精确定位地理空间和时间精度跟踪设备性能是一个时间序列问题。时序数据库可帮助用户经济高效地大规模存储和分析源源不断的设备遥测和传感器数流,以便管理工业设备维护、车队管理、资产跟踪、路线规划、产量优化、石油和天然气生产等。

面向客户和内部的SaaS应用和数据管道。产品数据是时间序列数据。快速了解产品随时间推移的使用方式、细分客户群以及做出产品和业务决策情况。时序数据库可以存储所有应用程序指标,而成本只是分析服务的一小部分。

财务信息。财务数据是时间序列数据。准确理解市场和价格变动数据并将这些数据与其他信息来源相结合是一个时间序列问题,也是现代金融分析的基础。时序数据库可以轻松跟踪时间序列资金、市场数据,并将其与其他关系数据相关联。

除此之外,比如现在比较流行的各种穿戴设备,以后都可以联网,穿戴设备上采集的心跳信息、血流信息、体感信息等也都会实时传输给服务器进行实时分析、存储以及查询统计。

在可预知的未来3~5年,随着物联网以及工业4.0的到来,所有设备都会携带传感器并联网,传感器收集的时序数据将严重依赖TSDB的实时分析能力、存储能力以及查询统计能力。

3.开源是时序数据库发展的主引擎

目前市场上都有哪些时序数据库?

主流的时序数据库   数据来源:DB-Engines

出自DB-Engines的排名信息,目前有39种时序数据库。随着2018年IoT领域的崛起,InfluxDB的热度也持续飙升,稳稳地龙头位置。

主流的时序数据库发展趋势   数据来源:DB-Engines

以开源时序数据库为例,说明时序数据库三大架构。

第一种,就是在关系数据库基础上进行改进的时序数据库,比如基于PostgreSQL开发的TimescaleDB。

TimescaleDB是第一个用于时间序列数据的开源关系数据库。TimescaleDB 提供了应用程序、数据分析基础结构和复杂系统所需的可靠性、灵活性、易用性和可伸缩性。

而TimescaleDB则建立在PostgreSQL之上,并添加了一个被称为超级表(hypertables)的中间层。该层将数据分块到多个底层数据表中,并将其抽象为一个可用于数据交互的单个大表。

与PostgreSQL的兼容性是TimescaleDB的最大卖点。TimescaleDB非常适合那些寻求显著性能提升,而不想通过大量重构来迁移现有SQL数据库的团队。

第二种,就是在KV数据库的基础之上进行改进的时序数据库,比如基于HBase开发的OpenTSDB。

OpenTSDB是基于Hbase的时序数据库。不具备通用性,主要针对具有时间特性和需求的数据,如监控数据、温度变化数据等,比较适合存储具有时间特性的数据,同时提供特定的工具进行查询等操作。

第三种,就是为时序数据量身定制的时序数据库,目前的领头羊就是InfluxDB,也包括2020新晋的Apache顶级项目ApacheIoTDB。

InfluxDB的创建者。它专为处理物联网设备和传感器、应用程序、容器、虚拟机和网络生成的大量带时间戳的数据而构建。

InfluxDB的客户范围从初创公司到财富500强企业,其用例涵盖每个垂直行业,如消费者和工业物联网、安全、金融科技、可再生能源等。其优点是无模式摄取、庞大的社区、与流行工具相集成等。

4.中国出现时序数据库热

在数据库发展中,中国从来都不会落伍,因为中国在发展智能制造、智能家居、智能健康等领域的需求巨大,对时序数据库的发展充满热情。

海比研究院观察到,目前中国市场的时序数据库基本上可以分为两类:

一类是独立时序数据库提供商,以自研技术发展自己的产品。

智臾科技成立于2016年,其产品是集高性能时序数据库与全面的分析功能为一体的新一代数据库DolphinDB。

2021年底,智臾科技宣布完成1亿元B轮融资。除了针对物联网场景,替代传统数据库,降低存储成本,提升查询效率外,DolphinDB还让企业从海量数据中高效发掘数据尤其是实时数据的价值,以实时反控业务系统,助力企业实时商业决策,真正实现数据闭环。

北京四维纵横数据技术有限公司则推出超融合时序数据库。据介绍,超融合时序数据库将彻底解决过去关系型、时序型、分析型等不同种类数据库的孤岛化问题,并通过精简的技术栈和全面支持现代SQL大幅提升开发运维效率,为企业做到省心、省力、省时、省钱。

2021年底,四维纵横完成了1亿人民币A轮融资。在行业切入选择方面,四维纵横首先选择了数据量大、指标量多的互联网、车联网、智能制造和能源场景进行率先应用,目前已与众多互联网大厂合作,打造了中国中车、ZTE、头部云厂商及大型互联网公司等标杆客户。

另一类就是云服务商,因为IoT需求而发展起来的时序数据库服务托管商,正成为中国时序数据库市场的主力军。

青云QingCloud自主研发了时序数据库 ChronusDB ,一款高效、安全、易用的时序数据分析利器,支持千亿条结构化数据毫秒级查询;采用高效数据压缩技术,减少存储使用空间,有效降低存储成本;支持近百种聚合函数,提供专业全面的时序数据计算函数支持;支持降采样精度、数据插值,满足各种复杂的业务数据查询场景。

青云解释了ChronusDB在工业中应用的一个过程。首先,工业制造企业可借助 ChronusDB,实现对各种工业生产设备的数据采集和云端汇聚;通过QingCloud IoT平台丰富的计算函数支持,快速分析物联网设备产生的时序数据,完成设备状态检测、故障发现及业务趋势分析;最后,通过青云QingCloud 深度学习平台,实现 AI 应用的快速量身定制,对物联网全量数据的智能化分析,进而实现智能制造在行业的落地。

亚马逊云科技的Amazon Timestream是一种快速、可扩展的全托管、无服务器时间序列数据库服务,借助 Timestream,企业可以每天轻松存储和分析数万亿个事件。

相比传统关系型数据库,Timestream速度提升了1000倍,而成本仅为十分之一。采用无服务器技术,自动缩放以调整容量和性能,使得用户只需要专注于应用程序的构建,而无需管理底层基础设施。

阿里云Lindorm TSDB时序数据库据称有四个关键的价值,非对称读写和快速处理海量时序数据,数据存储效率高,单位数据量存储成本优势明显;针对时序数据构建独特的数据存储架构,读取处理时序数据方面相比其他数据库更具有性能、成本优势;边云一体化,方案集成方便简单。

华为GaussDB(for Influx)时序数据库整合华为云的计算、存储、服务保障和安全等方面的能力,对内支撑了华为云基础设施服务,对外以服务的形式开放,帮助上云企业解决相关业务问题。GaussDB(for Influx)接口完全兼容InfluxDB,写入接口兼容OpenTSDB、Prometheus和Graphite。

海比研究院认为,虽然时序数据库近几年发展迅猛,自主研发的产品逐渐增多,但是它依然处于发展初期,依然是开源系统主导发展方向。

时序数据库的应用与企业数字化智能化密切相关,其应用场景随着IoT发展而不断扩大。相信随着IoT的发展,时序数据库的市场规模将持续增大。因此,自主研发时序数据库时不待我,绝不能将时序数据库发展基于开源基础上。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:soft6软件网
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...