Hive-distribute by与group by,order by与sort by 的区别,cluster by

两个是完全不同的东西,group by的后续需要我们对数据进行聚合,distribute by只是把数据分到不同的reducer中去。

distribute by与group by 的区别

都是按key值划分数据 都使用reduce操作
唯一不同的是,distribute by只是单纯的分散数据,distribute by col – 按照col列把数据分散到不同的reduce。而group by把相同key的数据聚集到一起,后续必须是聚合操作。

order by与sort by 的区别

order by是全局排序 sort by只是确保每个reduce上面输出的数据有序。如果只有一个reduce时,和order by作用一样。

cluster by
把有相同值的数据聚集到一起,并排序,效果等价于distribute by col sort by col.

即 cluster by col <==> distribute by col sort by col

转载链接

相关推荐

  1. SQL、HiveSQL和Spark中SQL三者联系区别

    2024-04-20 15:16:04       34 阅读
  2. Hive SQL 标准和主流 SQL DB 语法区别

    2024-04-20 15:16:04       10 阅读
  3. Hive安装配置

    2024-04-20 15:16:04       8 阅读
  4. =====区别

    2024-04-20 15:16:04       11 阅读
  5. & && 区别

    2024-04-20 15:16:04       9 阅读
  6. 头歌—Hive安装配置

    2024-04-20 15:16:04       40 阅读
  7. Hive MySQL 数据库限制对比

    2024-04-20 15:16:04       10 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-20 15:16:04       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-20 15:16:04       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-20 15:16:04       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-20 15:16:04       18 阅读

热门阅读

  1. k8s实践总结

    2024-04-20 15:16:04       22 阅读
  2. STM32总结

    2024-04-20 15:16:04       12 阅读
  3. loadash常用的函数方法

    2024-04-20 15:16:04       19 阅读
  4. 使用scikit-learn中的SVC类实现垃圾邮件分类

    2024-04-20 15:16:04       16 阅读
  5. C#面向对象——封装、封装案例示例

    2024-04-20 15:16:04       19 阅读
  6. sklearn【F1 Scoree】F1分数原理及实战代码!

    2024-04-20 15:16:04       15 阅读