Hive调优一文打尽

一、调优概述

Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce 分配不合理等等。对Hive 的调优既包含 Hive 的建表设计方面,对HiveHQL 语句本身的优化,也包含 Hive 配置参数和底层引擎 MapReduce 方面的调整。

所以此次调优主要分为以下四个方面展开:

  1. Hive的建表设计层面
  2. HQL语法和运行参数层面
  3. Hive架构层面
  4. Hive数据倾斜

总之,Hive调优的作用:在保证业务结果不变的前提下,降低资源的使用量,减少任务的执行时间。

二、调优须知

  1. 对于大数据计算引擎来说:数据量大不是问题,数据倾斜是个问题。
  2. Hive的复杂HQL底层会转换成多个MapReduce Job并行或者串行执行,Job数比较多的作业运行效
    率相对比较低,比如即使只有几百行数据的表,如果多次关联多次汇总,产生十几个Job,耗时很长。
    原因是 MapReduce 作业初始化的时间是比较长的。
  3. 在进行Hive大数据分析时,常见的聚合操作比如sum,count,max,min,UDAF等 ,不怕数据倾
    斜问题,MapReduce 在 Mappe阶段 的预聚合操作,使数据倾斜不成问题。
  4. 好的建表设计,模型设计事半功倍。
  5. 设置合理的 MapReduce 的 Task 并行度,能有效

相关推荐

  1. Hive

    2024-01-17 11:46:04       51 阅读
  2. Hive总结

    2024-01-17 11:46:04       42 阅读
  3. HIVE

    2024-01-17 11:46:04       26 阅读
  4. hive

    2024-01-17 11:46:04       24 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-17 11:46:04       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-17 11:46:04       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-17 11:46:04       82 阅读
  4. Python语言-面向对象

    2024-01-17 11:46:04       91 阅读

热门阅读

  1. Hive条件函数详细讲解

    2024-01-17 11:46:04       51 阅读
  2. Hive日期函数详细讲解

    2024-01-17 11:46:04       46 阅读
  3. hive除数取整

    2024-01-17 11:46:04       56 阅读
  4. 日常美食DIY教程之三,鱼香杏鲍菇的食材与做法

    2024-01-17 11:46:04       45 阅读
  5. RabbitMQ如何保证消息不丢失?

    2024-01-17 11:46:04       51 阅读
  6. 2023科技风暴:AI璀璨之旅与算法备案护航

    2024-01-17 11:46:04       57 阅读
  7. PHP 数据类型面试题

    2024-01-17 11:46:04       50 阅读
  8. vue 实现 全部页全部选

    2024-01-17 11:46:04       54 阅读
  9. mac m1: bad cpu type in executable

    2024-01-17 11:46:04       53 阅读
  10. IDEA常用快捷键

    2024-01-17 11:46:04       58 阅读
  11. 编译和链接

    2024-01-17 11:46:04       54 阅读