hive-分桶-索引(初篇)

hvie - 分桶

  • 创建分桶表之前要先设置hive允许进行强制分桶配置

set hive.enforce.bucketing=true
  • 创建分桶表

create table tmp_bucket(id int,
                        name String) 
                        clustered by (id) into 4 buckets    
  • 建表

  • 其中x表示分几个桶进行抽样,y表示间隔几个桶进行一次分桶

select columns 
from  table tablesample(bucket x out of y on column);
  • 进行抽样

select id,name from tmp_bucket tablesample(bucket 1 out of 2 on id);
  • 像分桶表加载数据

insert overwrite table tmp_bucket 
select id,name from source_data;
# 其中的source_data 表中的数据一定是提前分好桶的
​
  • 查询分桶表 - > 高效抽样 , 通过桶号进行抽样

select * from tmp_bucket where name in (select name from tmp_bucket distribute by rand() into 3 butkets);   

hive-索引

  • 刚创建完hive的索引表是数据的, 需要生成索引数据

alter index 索引名称 on table_name rebuild;
  • 查看索引

show  formatted index on table_name

这篇文件未完成待续哦 ......

相关推荐

  1. hive--索引()

    2024-04-10 07:04:02       39 阅读
  2. Hive

    2024-04-10 07:04:02       38 阅读
  3. Hive动态区和

    2024-04-10 07:04:02       60 阅读
  4. Hive优化(1)——采样

    2024-04-10 07:04:02       33 阅读
  5. hive区和你熟悉吗?

    2024-04-10 07:04:02       44 阅读
  6. Hive-分区与详解(超详细)

    2024-04-10 07:04:02       51 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-10 07:04:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-10 07:04:02       101 阅读
  3. 在Django里面运行非项目文件

    2024-04-10 07:04:02       82 阅读
  4. Python语言-面向对象

    2024-04-10 07:04:02       91 阅读

热门阅读

  1. Golang 实现一个简单的 RPC 服务

    2024-04-10 07:04:02       44 阅读
  2. Servlet3.0 Http函数 介绍 + upload file 源码阅读

    2024-04-10 07:04:02       37 阅读
  3. 【vim 学习系列文章 18 -- 选中行前后增加两行】

    2024-04-10 07:04:02       37 阅读
  4. mac 怎么在 iterm 中 打印文件路径 树结构

    2024-04-10 07:04:02       36 阅读
  5. STM32G4 Math Operation Benchmark Test

    2024-04-10 07:04:02       39 阅读
  6. 【图论】Leetcode 207. 课程表【中等】

    2024-04-10 07:04:02       37 阅读