第二十章hive

2024-04-20 12:44:02
开发
33

1)

窗口函数

over（partition by 分组字段 order by 排序字段 rows between 起始行 and 结束行）

窗口计算范围的指定

需要使用rows 进行指定计算行数

范围的确认：

默认情况下没有指定partition by 的字段，范围是全表，如果指定了partition by，范围是分组内的范围

可以通过rows指定计算行的范围大小：rows between 起始行 and 结束行

指定计算行范围后，只对范围内的数据进行计算

select * ,count(字段) over （rows between unbounded preceding and current row ）cnt from 表名

unbounded preceding: 窗口向上无限制

current row：当前行

行数：preceding

向下指定函数： following

向下无限制：unbounded following

不同的关键字可以组合成一个范围

between 起始范围行 and 结束行

例如:

between 2 preceding and 1 followling 包含4行数据

范围查找是从当前行为基准 2 preceding 向上找两行 1 followling 向下一行共4行

范围顺序：起始行向上结束行向下

order by 计算范围说明

使用了order by后自带计算范围统计数据范围为：rows between unbounded preceding and current now

over 中的 order by 是计算数据时，先排序在计算数据， from 后的order by 是对计算后的结果排序（可以同时出现）

2）

CTE

CTE语法类似子查询，可以将一个select语句计算的结果当成一个新的临时表使用

基本用法

with 临时表名 as（查询语句） select * from 临时表名

多个计算结果保存

with 表名1 as（查询语句），

表名2 as （查询语句 select * from 表名1），

表名3 as （查询语句）

select * from 表名3 join 表名2

例如：

with tb1 as（select * from emp）
select ename，sal from tb1

3）爆炸函数和合并函数（只能hive里面用）

函数的分类：

udf （user define function）函数数据输入多少行就返回多少行数据计算是一进一出

hive中的大部分函数都是udf函数

udaf函数（user define aggregation function）函数输入多行数据返回一行结果多进一出例如 sum avg count...

udtf函数输入一行返回多行一进多出

3-1 explode方法

爆炸函数可以将数组中的数据拆分多行

explode 不能直接和其他字段出现在select中

使用侧视图的方法和其他字段一起展示

侧视图关键字 lateral view explode（explode（split（字段，'-'）））表名（tb1） as

select 字段，字段 from 表名 lateral view explode（split（字段，'-'））tb1 as 别名

不能简单使用join进行关联数据

3-2 collect方法合并操作

collect_list（字段）from 表名；

collect_list 合并后不会去重

collect_set 合并后会对数据进行去重

4）随机抽样

从海量数据中随机抽取部分样本数据进行计算得到的结果趋势和整体趋势一致

select ...from tb1 tablesample（bucket x OUT y ON (colname | read ( ))）

x代表取哪组

y代表分成几组

(colname | read ( )) = 字段

或者 select ...from tb1 tablesample（bucket x OUT y ON rabd(）)

rabd()=随机性通过hash计算进行随机挑选

select （abs（hash（‘1aa12023-10-10’）)+ round (rand()*100)）%4

5）

虚拟列

hive 表中自带字段列，在进行select查询时没有指定，不会出现在查询结果中

可以在select中指定这些字段显示内容

INPUT_FILE_NAME 显示数据行所在的具体文件

BLOCK_OFFSET_INSIDE_FILE 显示数据行所在文件的偏移量

ROW_OFFSET_INSIDE_BLOCK 显示数据所在的hdfs块的偏移量

此虚拟列需要设置:SET hive.exec.rowoffset=true; 才可使用.

虚拟列可以作为select的过滤条件使用

原文地址:https://blog.csdn.net/m0_62008384/article/details/137695910 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1781544329249165312.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

第二十章hive

2024-04-20 12:44:02 34 阅读
第二十章总结

2024-04-20 12:44:02 47 阅读
第二十一章

2024-04-20 12:44:02 46 阅读
第二十一章

2024-04-20 12:44:02 37 阅读
第二十一章

2024-04-20 12:44:02 46 阅读
第二十一章

2024-04-20 12:44:02 36 阅读
第二十一章总结。。

2024-04-20 12:44:02 42 阅读
第二十一章总结

2024-04-20 12:44:02 44 阅读
第二十一章总结

2024-04-20 12:44:02 50 阅读
第二十一章总结

2024-04-20 12:44:02 49 阅读

最近更新

题解 - 序列

2024-04-20 12:44:02 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-04-20 12:44:02 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-04-20 12:44:02 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-04-20 12:44:02 100 阅读
NoSQL之Redis非关系型数据库

2024-04-20 12:44:02 101 阅读
2024.7.22 作业

2024-04-20 12:44:02 96 阅读
GDB调试正在运行的程序

2024-04-20 12:44:02 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-04-20 12:44:02 85 阅读
在Django里面运行非项目文件

2024-04-20 12:44:02 82 阅读
SSD基本架构与工作原理

2024-04-20 12:44:02 87 阅读
在誉天学习完HCIE就业吗？

2024-04-20 12:44:02 93 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-04-20 12:44:02 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-04-20 12:44:02 85 阅读
go 协程池的实现

2024-04-20 12:44:02 88 阅读
Shell脚本循环语句与函数

2024-04-20 12:44:02 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-04-20 12:44:02 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-04-20 12:44:02 85 阅读
四大引用——强软弱虚

2024-04-20 12:44:02 86 阅读
Python语言-面向对象

2024-04-20 12:44:02 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-04-20 12:44:02 85 阅读
网站安全-CDN篇

2024-04-20 12:44:02 88 阅读

热门阅读

Python网络爬虫项目开发实战：如何处理动态内容

2024-04-20 12:44:02 40 阅读
数据结构：堆

2024-04-20 12:44:02 33 阅读
数仓建模—逻辑数据模型

2024-04-20 12:44:02 36 阅读
PCL SAC_IA配准高阶用法——统计每次迭代的配准误差并可视化

2024-04-20 12:44:02 33 阅读
React中子传父的方式及原理

2024-04-20 12:44:02 34 阅读
网站备案期间怎么关闭首页显示无法访问-文章及其它页面正常访问

2024-04-20 12:44:02 33 阅读
戴尔电脑怎么关闭开机密码？

2024-04-20 12:44:02 29 阅读
一步一步学习使用 MediaSource 实现动态媒体流

2024-04-20 12:44:02 32 阅读
爬虫的目的是做什么

2024-04-20 12:44:02 36 阅读
CSS实现文本渐变色

2024-04-20 12:44:02 39 阅读
「51媒体」展会媒体邀约资源，媒体宣传服务执行

2024-04-20 12:44:02 30 阅读
postgreSQL学习指南（基础）

2024-04-20 12:44:02 41 阅读
Spring boot注解开发mybatis

2024-04-20 12:44:02 34 阅读
通俗易懂解析Web前端面试必背题（全）

2024-04-20 12:44:02 29 阅读
python-基础(2)-数值运算

2024-04-20 12:44:02 30 阅读
区块链媒体推广的8个成功案例解析-华媒舍

2024-04-20 12:44:02 33 阅读
基于Python的招聘信息爬虫系统的设计与实现

2024-04-20 12:44:02 40 阅读
微信小程序开发五（与springboot整合）

2024-04-20 12:44:02 39 阅读
Android--ConnectivityManager使用

2024-04-20 12:44:02 35 阅读
基于K-prototype算法聚类

2024-04-20 12:44:02 35 阅读
【备忘】利用FFMpeg读取视频第一帧作为封面

2024-04-20 12:44:02 43 阅读
群晖docker如何部署onlyoffice

2024-04-20 12:44:02 46 阅读
SpringBoot Cloud Gateway

2024-04-20 12:44:02 43 阅读
Vue3页面的执行过程

2024-04-20 12:44:02 38 阅读
【Camera Framework笔记】二、Camera Native Framework架构①

2024-04-20 12:44:02 42 阅读
计算机网络【第一章】

2024-04-20 12:44:02 38 阅读
kali linux 的语言切换为中文

2024-04-20 12:44:02 38 阅读
调试 WebSocket API 技巧分享

2024-04-20 12:44:02 43 阅读
unity socket udp 连接

2024-04-20 12:44:02 187 阅读
计算机网络(六)应用层

2024-04-20 12:44:02 34 阅读