12月11日总结

实验6
熟悉Hive的基本操作

1.实验目的
(1)理解Hive作为数据仓库在Hadoop体系结构中的角色。
(2)熟练使用常用的HiveQL。
2.实验平台
操作系统:Ubuntu18.04(或Ubuntu16.04)。
Hadoop版本:3.1.3。
Hive版本:3.1.2。
JDK版本:1.8。
3.数据集
由《Hive编程指南》(O'Reilly系列,人民邮电出版社)提供,下载地址:
https://raw.githubusercontent.com/oreillymedia/programming_hive/master/prog-hive-1st-ed-data.zip
备用下载地址:
https://www.cocobolo.top/FileServer/prog-hive-1st-ed-data.zip
解压后可以得到本实验所需的stocks.csv和dividends.csv两个文件。
4.实验步骤
(1)创建一个内部表stocks,字段分隔符为英文逗号,表结构如表14-11所示。
表14-11 stocks表结构
col_name data_type
exchange string
symbol string
ymd string
price_open float
price_high float
price_low float
price_close float
volume int
price_adj_close float

(2)创建一个外部分区表dividends(分区字段为exchange和symbol),字段分隔符为英文逗号,表结构如表14-12所示。
表14-12 dividends表结构
col_name data_type
ymd string
dividend float
exchange string
symbol string

(3)从stocks.csv文件向stocks表中导入数据。
(4) 创建一个未分区的外部表dividends_unpartitioned,并从dividends.csv向其中导入数据,表结构如表14-13所示。
表14-13 dividends_unpartitioned表结构
col_name data_type
ymd string
dividend float
exchange string
symbol string

(5)通过对dividends_unpartitioned的查询语句,利用Hive自动分区特性向分区表dividends各个分区中插入对应数据。
(6)查询IBM公司(symbol=IBM)从2000年起所有支付股息的交易日(dividends表中有对应记录)的收盘价(price_close)。

(7)查询苹果公司(symbol=AAPL)2008年10月每个交易日的涨跌情况,涨显示rise,跌显示fall,不变显示unchange。

(8)查询stocks表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所(exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。

(9)从stocks表中查询苹果公司(symbol=AAPL)年平均调整后收盘价(price_adj_close) 大于50美元的年份及年平均调整后收盘价。

(10)查询每年年平均调整后收盘价(price_adj_close)前三名的公司的股票代码及年平均调整后收盘价。

5.实验报告
题目: 熟悉Hive的基本操作 姓名 刘梦阳 日期:2023.11.30
实验环境:
操作系统:Linux(centOS)。
Hadoop版本:3.1.3。
Hive版本:3.1.2。
JDK版本:1.8。
实验内容与完成情况:
(1)创建一个内部表stocks,字段分隔符为英文逗号,表结构如表14-11所示。
表14-11 stocks表结构
col_name data_type
exchange string
symbol string
ymd string
price_open float
price_high float
price_low float
price_close float
volume int
price_adj_close float
HiveQL代码
create table if not exists stocks
(
exchange string,
symbol string,
ymd string,
price_open float,
price_high float,
price_low float,
price_close float,
volume int,
price_adj_close float
)
row format delimited fields terminated by ',';

查看创建的表

(3)创建一个外部分区表dividends(分区字段为exchange和symbol),字段分隔符为英文逗号,表结构如表14-12所示。
表14-12 dividends表结构
col_name data_type
ymd string
dividend float
exchange string
symbol string

HiveQL代码
create external table if not exists dividends
(
ymd string,
dividend float
)
partitioned by(exchange string ,symbol string)
row format delimited fields terminated by ',';
运行结果

(3)从stocks.csv文件向stocks表中导入数据。
HiveQL代码
load data local inpath '/root/hiveData/stocks.csv' overwrite into table stocks;
运行结果

(4) 创建一个未分区的外部表dividends_unpartitioned,并从dividends.csv向其中导入数据,表结构如表14-13所示。
表14-13 dividends_unpartitioned表结构
col_name data_type
ymd string
dividend float
exchange string
symbol string

创建分区表
create external table if not exists dividends_unpartitioned
(
exchange string,
symbol string,
ymd string,
dividend float
)
row format delimited fields terminated by ',';
导入数据
load data local inpath '/root/hiveData/dividends.csv' overwrite into table dividends_unpartitioned;
运行结果

(5)通过对dividends_unpartitioned的查询语句,利用Hive自动分区特性向分区表dividends各个分区中插入对应数据。
HiveQL代码
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
insert overwrite table dividends partition(exchange,symbol) select ymd,dividend,exchange,symbol from dividends_unpartitioned;
运行结果

(6)查询IBM公司(symbol=IBM)从2000年起所有支付股息的交易日(dividends表中有对应记录)的收盘价(price_close)。
HiveQL代码
select s.ymd,s.symbol,s.price_close
from stocks s
LEFT SEMI JOIN
dividends d
ON s.ymd=d.ymd and s.symbol=d.symbol
where s.symbol='IBM' and year(ymd)>=2000;
运行结果

(7)查询苹果公司(symbol=AAPL)2008年10月每个交易日的涨跌情况,涨显示rise,跌显示fall,不变显示unchange。
HiveQL代码
select ymd,
case
when price_close-price_open>0 then 'rise'
when price_close-price_open<0 then 'fall'
else 'unchanged'
end as situation
from stocks
where symbol='AAPL' and substring(ymd,0,7)='2008-10';
运行结果

(8)查询stocks表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所(exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。
HiveQL代码
select exchange,symbol,ymd,price_close,price_open,price_close-price_open as diff
from
(
select *
from stocks
order by price_close-price_open desc
limit 1
)t;
运行截图

(9)从stocks表中查询苹果公司(symbol=AAPL)年平均调整后收盘价(price_adj_close) 大于50美元的年份及年平均调整后收盘价。
HiveQL代码
select
year(ymd) as year,
avg(price_adj_close) as avg_price from stocks
where exchange='NASDAQ' and symbol='AAPL'
group by year(ymd)
having avg_price > 50;
运行截图

(10)查询每年年平均调整后收盘价(price_adj_close)前三名的公司的股票代码及年平均调整后收盘价。
HiveQL代码
select t2.year,symbol,t2.avg_price
from
(
select
*,row_number() over(partition by t1.year order by t1.avg_price desc) as rank
from
(
select
year(ymd) as year,
symbol,
avg(price_adj_close) as avg_price
from stocks
group by year(ymd),symbol
)t1
)t2
where t2.rank<=3;
运行截图

出现的问题:
问题1: 无法连接到HiveServer2或Hive数据库。
问题2: 在执行某些操作时遇到权限被拒绝的错误。
问题3: 元数据出现问题,比如表无法创建或无法读取表的元数据。
解决方案(列出遇到的问题和解决办法,列出没有解决的问题):
· 解决方法1:
确保HiveServer2正在运行。检查HiveServer2进程是否在运行并监听正确的端口。
确保网络连接正常。检查防火墙设置和网络配置,确保客户端可以访问HiveServer2。
· 解决方法2:
确保你有执行所需操作的权限。在Hive中,权限管理可以通过HDFS或其他文件系统的权限机制进行管理。
使用具有适当权限的用户连接到Hive。
· 解决方法3:
检查Hive元数据库(如Derby或MySQL)的状态。确保元数据库正常运行,并且Hive可以正确访问和使用元数据。
如果元数据损坏,可以尝试恢复备份或者重建元数据。

相关推荐

  1. 1211总结

    2023-12-13 10:08:21       44 阅读
  2. 1213总结

    2023-12-13 10:08:21       53 阅读
  3. 1212总结

    2023-12-13 10:08:21       42 阅读
  4. 128总结

    2023-12-13 10:08:21       32 阅读
  5. 1210总结

    2023-12-13 10:08:21       42 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-13 10:08:21       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-13 10:08:21       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-13 10:08:21       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-13 10:08:21       18 阅读

热门阅读

  1. 12月8日总结

    2023-12-13 10:08:21       32 阅读
  2. 每日博客

    2023-12-13 10:08:21       45 阅读
  3. 1213

    2023-12-13 10:08:21       44 阅读
  4. 阅读笔记《有效需求分析》2

    2023-12-13 10:08:21       53 阅读
  5. 12月13日总结

    2023-12-13 10:08:21       53 阅读
  6. 12月12日总结

    2023-12-13 10:08:21       42 阅读
  7. 每日总结

    2023-12-13 10:08:21       47 阅读
  8. Linux部署mosquitto及其配置

    2023-12-13 10:08:21       42 阅读
  9. pandas 遍历

    2023-12-13 10:08:21       41 阅读
  10. Qt打包

    2023-12-13 10:08:21       50 阅读
  11. 12.12总结

    2023-12-13 10:08:21       45 阅读
  12. get请求数组参数,格式转换

    2023-12-13 10:08:21       60 阅读
  13. 【异步】CompletableFuture

    2023-12-13 10:08:21       45 阅读
  14. 深入了解RPM包管理与Nginx源码包管理

    2023-12-13 10:08:21       49 阅读
  15. clickhouse sql优化笔记

    2023-12-13 10:08:21       42 阅读
  16. 逃逸分析案例

    2023-12-13 10:08:21       54 阅读
  17. 每日总结

    2023-12-13 10:08:21       40 阅读
  18. ferry前端项目部署

    2023-12-13 10:08:21       49 阅读
  19. selenium

    2023-12-13 10:08:21       59 阅读
  20. openresty动态解析域名

    2023-12-13 10:08:21       45 阅读