橙色云资讯 - 工业互联网行业信息门户

大数据平台搭建层次有哪些

数据人生 2020-06-18

大数据 hdfs hive

1147 字丨阅读本文需 2 分钟

　　大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具，实现对数据的挖掘和分析，大数据平台是随着大数据技术的发展而逐渐被企业所关注的一个技术，而今天我们就一起来了解一下，大数据平台搭建都有哪些架构层次。

　　大数据平台搭建都有哪些架构层次

　　1、数据传输层

　　Sqoop：支持RDBMS和HDFS之间的双向数据迁移，通常用于抽取业务数据库（比如MySQL、SQLServer、Oracle）的数据到HDFS．

　　Cannal：阿里开源的数据同步工具，通过监听MySQL binlog，实现增量数据订阅和近实时同步。

　　Flume：用于海量日志采集、聚合和传输，将产生的数据保存到HDFS或者Hbase中。

　　Flume＋Kafka：满足实时流式日志的处理，后面再通过Spark Streaming等流式处理技术，可完成日志的实时解析和应用。

　　2、数据存储层

　　HDFS：分布式文件系统，它是分布式计算中数据存储管理的基础，是Google GFS的开源实现，可部署在廉价商用机器上，具备高容错、高吞吐和高扩展性。

　　Hbase：分布式的、面向列的NoSQL KV数据库，它是Google BigTable的开源实现，利用HDFS作为其文件存储系统，适合大数据的实时查询（比如：IM场景）。

　　Kudu：折中了HDFS和Hbase的分布式数据库，既支持随机读写、又支持OLAP分析的大数据存储引擎（解决Hbase不适合批量分析的痛点）。

　　3、资源管理层

　　Yarn：Hadoop的资源管理器，负责Hadoop集群资源的统一管理和调度，为运算程序（MR任务）提供服务器运算资源（CPU、内存），能支持MR、Spark、Flink等多种框架。

　　Kubernates：由Google开源，一种云平台的容器化编排引擎，提供应用的容器化管理，可在不同云、不同版本操作系统之间进行迁移。目前，Spark、Storm已经支持K8S。

　　4、数据计算层

　　大数据计算引擎决定了计算效率，是大数据平台最核心的部分，它大致了经历以下4代的发展，又可以分成离线计算框架和实时计算框架。

　　5、离线计算框架

　　MapReduce：面向大数据并行处理的计算模型、框架和平台（将计算向数据靠拢、减少数据传输，这个设计思路非常巧妙）。

　　Hive：一个数据仓库工具，能管理HDFS存储的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能（实际运行时，是将Hive SQL翻译成了MapReduce任务），适用离线非实时数据分析。

　　Spark sql：引入RDD（弹性分布式数据集）这一特殊的数据结构，将SQL转换成RDD的计算，并将计算的中间结果放在内存中，因此相对于Hive性能更高，适用实时性要求较高的数据分析场景。

　　6、实时计算框架

　　Spark Streaming：实时流数据处理框架（按时间片分成小批次，s级延迟），可以接收Kafka、Flume、HDFS等数据源的实时输入数据，经过处理后，将结果保存在HDFS、RDBMS、Hbase、Redis、Dashboard等地方。

　　Storm：实时流数据处理框架，真正的流式处理，每条数据都会触发计算，低延迟（ms级延迟）。

　　Flink：更高级的实时流数据处理框架，相比Storm，延迟比storm低，而且吞吐量更高，另外支持乱序和调整延迟时间。

　　7、多维分析层

　　Kylin：分布式分析引擎，能在亚秒内查询巨大的Hive表，通过预计算（用空间换时间）将多维组合计算好的结果保存成Cube存储在Hbase中，用户执行SQL查询时，将SQL转换成对Cube查询，具有快速查询和高并发能力。

　　Druid：适用于实时数据分析的高容错、高性能开源分布式系统，可实现在秒级以内对十亿行级别的表进行任意的聚合分析。

　　大数据平台搭建层次有哪些．中琛魔方大数据软件表示数据在企业的运营和精细化管理能起到比较好的作用。企业构建大数据体系是艰巨的任务，无论是谁主导，都需要说动高层，提供有力的从上至下的执行。

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：数据人生

0 0

参与评论

登录后参与讨论 0/1000

下一篇 Hive SQL语句的正确执行顺序

关于 sql 语句的执行顺序网上有很多资料,但...

2021-07-28

大数据平台搭建层次有哪些

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

大数据平台搭建层次有哪些

参与评论

为你推荐

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

“灯塔工厂”的中国路径：智造从点到面铺开

国家电投与阿里巴巴宣布战略合作，数字化转型这条路上，央企各显神通

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

安防智能化升级的一大助力：端边云，有啥不一样？

看三大巨头如何逐鹿智能安防？精细化场景需求提升AI应用范围

“赢在南京·创业金陵”科技创新创业大赛圆满举行|北京·活动

再次创业的李一男官宣造车，已获5亿美元投资，首款车2022年上市｜ 镁客网每周硬科技领域投融资

霍尼韦尔：工业数据分析如何驱动智能分析与决策优化

方大九钢携手图扑软件：数字孪生”高精尖“智慧钢厂

汽车企业数字化转型：关键认知与实现策略

面向未来：自动驾驶的数据治理

一文讲透货拉拉混合云数据库体系化建设

2022年小程序平台行业研究报告

进军超级场景：隐私计算金融风控应用报告（2022）

智慧城市健康发展需关注的五个问题

【首发】中科碳元完成数千万元天使轮融资，专注DNA数据存储技术研究和商业化

深物联·物联网产业简报【第164期】

加快数智化转型，开启智能制造新时代

三年之后又三年，从蛰伏到到破土！“2021挚物·AIoT产业领袖峰会”工业互联网分论坛圆满落幕！

特斯拉在中国建立数据中心，物联网数据到底谁来保障？

智慧芽发布全球企业智能制造专利百强榜单：国网、华为等20家中国企业入榜

深物联·物联网产业简报【第156期】

CHIMA2021，数据、安全与区域医疗，6个信息化方向探索

腾讯云即将亮相2021全球数字经济产业大会

滴滴背后股权复杂：高精度地图为何引起纷争？| 贾新光汽车评论

深物联·物联网产业简报【第166期】

医疗：疫情下的人类高质量数据共享场景 | 2021隐私计算半年纪

五部门发布汽车数据安全管理规定，特斯拉蔚小理百度滴滴还好吗？

APP风暴：用户隐私的“头号公敌”

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总

再次创业的李一男官宣造车，已获5亿美元投资，首款车2022年上市｜镁客网每周硬科技领域投融资