2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

 选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐

  1. 2024-02-04hive

    2024-02-05 05:50:02       44 阅读
  2. 2024-02-01(Hive)

    2024-02-05 05:50:02       56 阅读
  3. 2024-02-05

    2024-02-05 05:50:02       52 阅读
  4. 2024.02.05

    2024-02-05 05:50:02       50 阅读
  5. 2024.01.02】刷算法07

    2024-02-05 05:50:02       57 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-05 05:50:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-05 05:50:02       100 阅读
  3. 在Django里面运行非项目文件

    2024-02-05 05:50:02       82 阅读
  4. Python语言-面向对象

    2024-02-05 05:50:02       91 阅读

热门阅读

  1. 【vue2源码】阶段一:Vue 初始化

    2024-02-05 05:50:02       39 阅读
  2. docker

    2024-02-05 05:50:02       48 阅读
  3. 数据库事务隔离级别

    2024-02-05 05:50:02       47 阅读
  4. vue基本理解

    2024-02-05 05:50:02       50 阅读
  5. 分组函数应用(sql+python)总结

    2024-02-05 05:50:02       50 阅读
  6. MySQL中如何将字符串替换

    2024-02-05 05:50:02       56 阅读
  7. hadoop使用公平调度器

    2024-02-05 05:50:02       50 阅读
  8. 面试 CSS 框架八股文十问十答第五期

    2024-02-05 05:50:02       54 阅读