【架构七】Hadoop

什么是Hadoop?

Hadoop是一个存储系统+计算框架的软件大数据处理框架。
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/4d3d1347acd54373ab38690b40b5aa5c.png

Hadoop的核心,说白了就是HDFSMapReduce,HDFS为海量数据提供了存储,而MapReduce为海量数据提供了计算框架。HBase是一个分布式的、面向列的开源数据库。属于Nosql。

Flink和MapReduce都是用于大数据处理的计算框架,两者的区别?

Flink:是一个分布式计算框架,可以处理海量数据,既可以处理海量数据,也可以做实时流处理。
Flink和MapReduce是两种不同的大数据处理框架。
MapReduce适用于离线批处理任务,具有较高的延迟和较差的迭代计算能力。
Flink是一个流处理框架,适用于实时和近实时数据处理,具有较低的延迟、支持迭代计算和有状态处理等特点。

CDH与Hadoop?

CDH是一个强大的商业版数据中心管理工具。CDH是Hadoop众多分支中的一种,是开源且免费的。
(1)提供了各组能够快速稳定运行的数据计算框架,如Spark;【Apache Spark(通常简称为Spark)是一个开源的大数据处理框架,旨在提供高速、易用和通用的数据处理和分析能力。Spark提供了一个统一的编程模型,支持批处理、流处理、机器学习和图计算等多种数据处理任务。】
(2)使用Apache Impala做为对HDFS、Hbase的高性能SQL查询引擎;【是一个开源的分布式SQL查询引擎,用于在大规模数据集上进行交互式分析和查询。它是为了提供快速的查询性能和低延迟而设计的。】
(3)使用Hive数据仓库工具帮助用户分析数据;【hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。】
(4)提供Hbase分布式列式NoSQL数据库。

相关推荐

  1. 物联网架构Hadoop

    2024-04-11 20:14:03       51 阅读
  2. ABSD-系统架构师(

    2024-04-11 20:14:03       31 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-11 20:14:03       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-11 20:14:03       106 阅读
  3. 在Django里面运行非项目文件

    2024-04-11 20:14:03       87 阅读
  4. Python语言-面向对象

    2024-04-11 20:14:03       96 阅读

热门阅读

  1. 蓝桥杯刷题文件(包含多道练习题)

    2024-04-11 20:14:03       37 阅读
  2. 5.安全列

    2024-04-11 20:14:03       38 阅读
  3. Day2 字符串哈希&KMP

    2024-04-11 20:14:03       34 阅读
  4. AI副业赚钱资讯合集

    2024-04-11 20:14:03       26 阅读
  5. Cloudflare是什么?有什么用途?怎么购买

    2024-04-11 20:14:03       32 阅读
  6. 构造函数不能作为虚函数

    2024-04-11 20:14:03       36 阅读
  7. CSS 1PX Border问题解决

    2024-04-11 20:14:03       35 阅读
  8. vue使用后端提供的接口

    2024-04-11 20:14:03       31 阅读
  9. 【笔记】EF文件中定义的SPN显示协议规则

    2024-04-11 20:14:03       30 阅读