hive 排序

3.1 order by

order by用于对查询结果的全局排序,hive内部对于所有map task执行完成后,会将所有排序内容集中到一个reduce task上来进行排序。优点:能够实现全局有序,缺点:只能一个reduce排序操作,当数据量级大时,排序慢,并且有可能OOM失败。

3.2 sort by

用于对单个reduce局部排序,不保证全局有序,hive执行完map task后,如果mapred.reduce.tasks>1,则会将数据分配到不同的reduce上执行,通过sort by来对单个reduce task内部数据进行排序。优点:排序效率高,局部有有序,缺点:全局无序。

3.3 distribute by

distribute by用于将map task输出的结果,分散到不同的reduce task中,默认采用hash分配算法。经常于sort by进行联合使用。

3.4 cluster by

cluster by包含了distribute by操作和sort by操作,但只能是倒序排序,不能指定字段进行desc和asc排序。

相关推荐

  1. hive 排序

    2024-07-10 12:52:02       7 阅读
  2. Hive的四种排序方法

    2024-07-10 12:52:02       42 阅读
  3. Hive中的四种排序

    2024-07-10 12:52:02       42 阅读
  4. Hive的几种排序方式、区别,使用场景

    2024-07-10 12:52:02       34 阅读
  5. Hive分组排序取topN的sql查询示例

    2024-07-10 12:52:02       26 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-10 12:52:02       4 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-10 12:52:02       5 阅读
  3. 在Django里面运行非项目文件

    2024-07-10 12:52:02       4 阅读
  4. Python语言-面向对象

    2024-07-10 12:52:02       5 阅读

热门阅读

  1. 小程序的制作费用很贵么

    2024-07-10 12:52:02       9 阅读
  2. c#实现23种常见的设计模式--动态更新

    2024-07-10 12:52:02       7 阅读
  3. 银河麒麟(V10SP1)-arm版交叉编译-qt-5.12.12源码

    2024-07-10 12:52:02       7 阅读
  4. 华为机考真题 -- 游戏分组

    2024-07-10 12:52:02       10 阅读
  5. Linux 期末速成(知识点+例题)

    2024-07-10 12:52:02       10 阅读
  6. 【基础篇】1.8 C语言基础(二)

    2024-07-10 12:52:02       8 阅读
  7. element ui form添加校验规则

    2024-07-10 12:52:02       8 阅读
  8. splice方法的使用#Vue3

    2024-07-10 12:52:02       9 阅读
  9. 使用Dockerfile和ENTRYPOINT运行Python 3脚本

    2024-07-10 12:52:02       9 阅读
  10. 黑龙江等保测评对中小企业成本效益分析

    2024-07-10 12:52:02       9 阅读