Hive架构设计

我们知道MapReduce和Spark它们提供了高度抽象的编程接口便于用户编写分布式程序,它们具有极好的扩展性和容错性,能够处理超大规模的数据集。这些计算引擎提供了面向高级语言(比如Java,Python等)的编程接口,然而,考虑到分布式程序编写的复杂性,直接使用这些编程接口实现应用系统(比如报表系统)无疑会提高使用门槛,降低开发效率。考虑到SQL仍然是一种非常主流的数据分析语言,开源社区在分布式计算框架基础山构建了支持SQL的引擎,其中典型的代表是MapReduce之上的Hive以及Spark之上的Spark SQL,这些数据分析引擎通常不支持标准得到SQL,而是对SQL进行了选择性支持,并进行了适当扩展,其中最主流的数据分析语言为HQL(Hive Query Language)。

简而言之,Hive是对非Java,python等编程者对hdfs数据做MapReduce操作。

一、概述

1、背景

大数据计算引擎为大规模数据处理提供了解决方案,它们提供了高级编程语言(比如Java,Python等)编程接口,可让程序员很容易表达计算逻辑。但在大数据领域,仅提供对编程语言的支持是不够的,这会降低一些数据分析场景(比如报表系统)下的开发效率,也提高了使用门槛。
为了让更多人使用这些大数据引擎分析数据,提高系统开发效率,大数据系统引入了对SQL的支持。SQL作为一种主流的数据分析语言,仍广受数据分析师欢迎,主要原因如下:

  • SQL能够跟现有系统进行很好的集成,现有的有JDBC/ODBC

相关推荐

  1. Hive架构设计

    2024-01-17 11:46:07       53 阅读
  2. 深入解析Apache Hive架构

    2024-01-17 11:46:07       27 阅读
  3. 软件架构设计 Azure架构

    2024-01-17 11:46:07       32 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-17 11:46:07       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-17 11:46:07       101 阅读
  3. 在Django里面运行非项目文件

    2024-01-17 11:46:07       82 阅读
  4. Python语言-面向对象

    2024-01-17 11:46:07       91 阅读

热门阅读

  1. Hive调优一文打尽

    2024-01-17 11:46:07       51 阅读
  2. Hive条件函数详细讲解

    2024-01-17 11:46:07       51 阅读
  3. Hive日期函数详细讲解

    2024-01-17 11:46:07       47 阅读
  4. hive除数取整

    2024-01-17 11:46:07       56 阅读
  5. 日常美食DIY教程之三,鱼香杏鲍菇的食材与做法

    2024-01-17 11:46:07       45 阅读
  6. RabbitMQ如何保证消息不丢失?

    2024-01-17 11:46:07       51 阅读
  7. 2023科技风暴:AI璀璨之旅与算法备案护航

    2024-01-17 11:46:07       57 阅读
  8. PHP 数据类型面试题

    2024-01-17 11:46:07       50 阅读
  9. vue 实现 全部页全部选

    2024-01-17 11:46:07       54 阅读
  10. mac m1: bad cpu type in executable

    2024-01-17 11:46:07       53 阅读
  11. IDEA常用快捷键

    2024-01-17 11:46:07       58 阅读