Hadoop, HIve, Spark关系简述

大数据∈数据管理系统的范畴

  • 数据管理系统:
    1. 数据怎么存?
    2. 数据怎么算?

单机数据管理时代下,

  • 数据处理的任务:IO密集型
    数据存不下?
    • HDFS用于存放多机器的数据并提供相关Api接口。
      HDFS中引入了一个模块:MapReduce(基于磁盘计算)。
      MapReduce:提供了一个任务并行的框架,通过它的Api抽象让用户把这个并行程序分成两个阶段,即Map阶段(分工),Reduce阶段(汇总)。

Hive:在Hadoop上写SQL,进行结构化处理的解决方案(类似的方案还有impala,presto等)

  • SQL中的S就是结构化处理的意思。
  • 核心模块:metastore,用于存储结构化的信息

Spark:计算框架(基于内存计算)

  • 提供了streaming的模块,用于写流处理的程序;
  • 提供了Mlib的模块,用于写机器学习的程序;
  • 提供了GraphX的模块,用于写图处理的程序。

sum

相关推荐

  1. TiDB分布式关系型数据库简介

    2024-01-29 06:04:01       47 阅读
  2. 简述VS C++,Win32 API 和MFC之间的关系

    2024-01-29 06:04:01       37 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-29 06:04:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-29 06:04:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-29 06:04:01       82 阅读
  4. Python语言-面向对象

    2024-01-29 06:04:01       91 阅读

热门阅读

  1. 引领云计算未来的技术-云原生详解

    2024-01-29 06:04:01       56 阅读
  2. [AIGC 大数据基础] 大数据流处理 Kafka

    2024-01-29 06:04:01       55 阅读
  3. HiveSQL题——用户连续登陆

    2024-01-29 06:04:01       48 阅读
  4. HTTP传输文件和FTP传输文件的相关简介

    2024-01-29 06:04:01       51 阅读
  5. 05_前后端交互技术之Ajax案例讲解

    2024-01-29 06:04:01       50 阅读
  6. <网络安全>《8 入侵检测系统IDS》

    2024-01-29 06:04:01       58 阅读
  7. docker笔记

    2024-01-29 06:04:01       52 阅读
  8. ClickHouse(23)ClickHouse集成Mysql表引擎详细解析

    2024-01-29 06:04:01       52 阅读