Hive的几种排序方式、区别，使用场景

2023-12-14 09:34:02
开发
46

一、几种排序和区别

Hive 支持两种主要的排序方式：ORDER BY 和 SORT BY。除此之外，还有 DISTRIBUTE BY 和 CLUSTER BY 语句，它们也在排序和数据分布方面发挥作用。

1. `ORDER BY`

ORDER BY 在 Hive 中用于对查询结果进行全局排序，确保结果集是全局有序的。但是，使用 ORDER BY 时，Hive 会将所有数据集中到一个 Reducer 上进行排序，这可能会导致性能瓶颈或内存不足的问题，尤其是在处理大数据集时。

使用示例:
```
SELECT name, age FROM users ORDER BY age;
```
这个查询会根据 age 列对 users 表中的数据进行全局排序。

2. `SORT BY`

SORT BY 在 Hive 中用于在每个 Reducer 内部进行排序，但不保证全局排序。使用 SORT BY 时，Hive 可以在多个 Reducer 上并行进行排序，提高了处理速度。但是，由于每个 Reducer 是独立排序，最终的结果集可能不是全局有序的。

使用示例:
```
SELECT name, age FROM users SORT BY age;
```
这个查询会在每个 Reducer 内部根据 age 列对 users 表中的数据进行排序。

3. `DISTRIBUTE BY`

DISTRIBUTE BY 通常与 SORT BY 结合使用，用于控制数据如何分发到 Reducer。DISTRIBUTE BY 会根据指定的列将数据分发到不同的 Reducer。在每个 Reducer 内部，可以使用 SORT BY 进行排序。

使用示例:
```
SELECT name, age FROM users DISTRIBUTE BY age SORT BY age;
```
这个查询首先根据 age 列将数据分发到不同的 Reducer，然后在每个 Reducer 内部根据 age 进行排序。

4. `CLUSTER BY`

CLUSTER BY 是 DISTRIBUTE BY 和 SORT BY 的简写形式，当 DISTRIBUTE BY 和 SORT BY 的字段是一样的时候可以使用 CLUSTER BY。它会根据指定的列分发数据到 Reducer，并在每个 Reducer 内部对这些数据进行排序。

使用示例:
```
SELECT name, age FROM users CLUSTER BY age;
```
这个查询将根据 age 列分发数据到 Reducer，并在每个 Reducer 内部根据 age 进行排序。

总结

ORDER BY：全局排序，但性能较差，适用于小数据集。
SORT BY：在每个 Reducer 内部排序，性能较好，但不保证全局排序。
DISTRIBUTE BY：控制如何分发数据到 Reducer。
CLUSTER BY：DISTRIBUTE BY 和 SORT BY 的组合，当两者字段相同时使用。

二、使用的场景

在 Hive 中选择排序方式时，关键在于理解数据的规模、查询的性能要求以及最终结果的需求。

1. `ORDER BY`

选择 ORDER BY 的情况：

当需要全局排序的结果时。也就是说，整个结果集必须按照特定的顺序排列。
当处理的数据量相对较小，不会对单个 Reducer 节点造成过大压力时。
在分析或报告场景中，需要精确排序的小数据集。

注意：对于大数据集，ORDER BY 可能会导致性能问题，因为它会将所有数据集中到一个 Reducer 上进行处理。

2. `SORT BY`

选择 SORT BY 的情况：

当只需要在每个 Reducer 内部的数据有序时。这意味着全局结果可能不是完全有序的。
当处理的数据量较大，且希望利用多个 Reducer 的并行处理能力时。
在数据倾斜（某些 Reducer 处理的数据量远大于其他 Reducer）的风险较低的情况下。

SORT BY 适用于大数据集，因为它可以分布在多个 Reducer 上并行处理，从而提高性能。

3. `DISTRIBUTE BY`

选择 DISTRIBUTE BY 的情况：

当需要控制数据如何分发到不同的 Reducer 以减少数据倾斜时。
当与 SORT BY 结合使用时，可以在每个 Reducer 内部进行有效排序。
在需要根据特定列的值将数据分散到不同 Reducer 以进行特定处理的场景中。

DISTRIBUTE BY 对于管理数据在 Reducer 之间的分布很有用，可以帮助优化查询性能。

4. `CLUSTER BY`

选择 CLUSTER BY 的情况：

当 DISTRIBUTE BY 和 SORT BY 使用相同的字段时，可以简化为 CLUSTER BY。
当数据分布和排序条件相同时，使用 CLUSTER BY 使查询更简洁。

CLUSTER BY 通常用于简化查询，并保证在每个 Reducer 内部数据的排序和分布是一致的。

综合考虑

在选择排序方式时，需要综合考虑查询的性能、数据的规模以及最终结果集的需求。对于大数据集，通常推荐使用 SORT BY 或 CLUSTER BY 以利用 Hive 的并行处理能力。对于需要精确全局排序的小数据集，可以使用 ORDER BY。而 DISTRIBUTE BY 更多的是用来优化数据在 Reducer 之间的分布，减少数据倾斜的问题。

原文地址:https://blog.csdn.net/WQY867047910/article/details/134849413 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1735110864853405696.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部