Hadoop安装笔记——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2:离线数据处理

将下发的ds_db01.sql数据库文件放置mysql中

12、编写Scala代码,使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info。字段名称、类型不变,同时添加静态分区,分区字段为etl_date,类型为String,且值为当前日期的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.user_info命令,将结果截图粘贴至答案表.docx中对应的任务序号下;
13、 编写Scala代码,使用Spark将MySQL的ds_db01库中表sku_info的全量数据抽取到Hive的ods库中表sku_info。字段名称、类型不变,同时添加静态分区,分区字段为etl_date,类型为String,且值为当前日期的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.sku_info命令,将结果截图粘贴至答案表.docx中对应的任务序号下;

软件名称

版本

ubuntu

18.04    64 位

Hadoop:hadoop-3.1.3.tar.gz

3.1.3

Jdk:jdk-8u212-linux-x64.tar.gz

1.8

Spark:spark-3.1.1-bin-hadoop3.2.tgz

3.1.1

Hive:apache-hive-3.1.2-bin.tar.gz

3.1.2

MySQL

5.7

Scala:scala-2.12.x.tgz

2.12

Vue.js

3.2

ECharts

5.1

JDBC驱动:   mysql-connector-java-5.1.37.jar

集成开发工具:IDEA 2022 社区版

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-26 17:12:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-26 17:12:03       100 阅读
  3. 在Django里面运行非项目文件

    2023-12-26 17:12:03       82 阅读
  4. Python语言-面向对象

    2023-12-26 17:12:03       91 阅读

热门阅读

  1. C/C++常见面试题(五)

    2023-12-26 17:12:03       41 阅读
  2. 【黄啊码】宝塔设置默认php版本无效?

    2023-12-26 17:12:03       51 阅读
  3. Linux 文件权限、文件压缩与文件查找

    2023-12-26 17:12:03       49 阅读
  4. LeetCode 1349. 参加考试的最大学生数,状压DP

    2023-12-26 17:12:03       57 阅读
  5. logrotate实现日志文件轮转

    2023-12-26 17:12:03       63 阅读
  6. flutter 表单组件TextField、TextFormField使用

    2023-12-26 17:12:03       67 阅读
  7. 开发环境和生产环境的区别

    2023-12-26 17:12:03       50 阅读
  8. 【ARM 嵌入式 编译系列 10.4 -- 生成二进制文件】

    2023-12-26 17:12:03       58 阅读