2024.1.9 Spark SQL day06 homework

目录

一. Spark SQL中数据清洗的API有哪些,各自作用是什么?

二. 设置Spark SQL的shuffle分区数的方式有哪几种

三. 数据写出到数据库需要注意什么?

四. Spark程序运行集群分类


一. Spark SQL中数据清洗的API有哪些,各自作用是什么?

        1. 去重 

                Dorpduplicate:  桌度仆力K

        init_df.dropDuplicates().show()
            init_df.dropDuplicates(subset=[字段1,字段2]).show()

如果没有指定subset,那么就会对一整行的数据 进行比对, 如果全部都相同,那么就删除

        2. 去除空值

                        dropna : 桌那

            init_df.dropna(thresh=2,subset=["字段1,字段2"]).show()
            init_df.dropna(thresh=2).show()

                init_df.dropna().show()

如果不传参数,只要有一个字段为null就删除全部

如果制定了subset,那么检查的范围就限定在subset里

thresh就是进一步指定范围的数值,至少有thresh个值不为空,才不会被删除

         3. 填充替换

                        fillna: feel那

            init_df.fillna(value=999).show()
            init_df.fillna(value=999,subset=["字段1","字段2"]).show()
            init_df.fillna(value={"{"name":"未知姓名","age":100}).show()

                fillna(value,subset):替换缺失值数据

        value(是要替换的内容) , subset是要替换的范围 ,常用的是value = 字典类型的形式

二. 设置Spark SQL的shuffle分区数的方式有哪几种

        方式一:

                全局设置:  Spark.sql.shuffle.Partitions 数量

        方式二:

                动态设置shuffle分区数量 :  ./spark-submit --conf "spark.sql.shuffle.partitions=数量"

        方式三:

               写死分区数: sparkSession.conf.set('spark.sql.shuffle.partitions',数量)

三. 数据写出到数据库需要注意什么?

        中文乱码问题。需要设置数据库编码,以及在连接URL中指定编码参数

        ?useUnicode=true&characterEncoding=utf-8

四. Spark程序运行集群分类

        Spark 集群 : Spark自带的集群 , 也称为Standalone

        Yarn集群:Spark程序运行在Yarn上

相关推荐

  1. 2024.1.9 Spark SQL day06 homework

    2024-01-10 08:44:03       50 阅读
  2. 2024 .1.7 Day05_Spark_HomeWork; Spark_SQL

    2024-01-10 08:44:03       47 阅读
  3. homework day6

    2024-01-10 08:44:03       46 阅读
  4. 2/13 homework

    2024-01-10 08:44:03       43 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-10 08:44:03       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-10 08:44:03       106 阅读
  3. 在Django里面运行非项目文件

    2024-01-10 08:44:03       87 阅读
  4. Python语言-面向对象

    2024-01-10 08:44:03       96 阅读

热门阅读

  1. 1-07基本数据类型

    2024-01-10 08:44:03       48 阅读
  2. 简单用PHP实现微信小程序的游戏功能

    2024-01-10 08:44:03       53 阅读
  3. PHP 微信小程序获取 手机号码

    2024-01-10 08:44:03       59 阅读
  4. RNN 和 Transformer 复杂度比较

    2024-01-10 08:44:03       51 阅读
  5. centos7.9 oracle 19c 安装

    2024-01-10 08:44:03       45 阅读
  6. 服务器宕机要怎么解决

    2024-01-10 08:44:03       53 阅读
  7. socket通信实现TCP协议的同步通信

    2024-01-10 08:44:03       56 阅读
  8. 关于数据库切换的麻烦

    2024-01-10 08:44:03       61 阅读
  9. Mysql in查询优化

    2024-01-10 08:44:03       56 阅读
  10. 正则表达式

    2024-01-10 08:44:03       44 阅读
  11. Tomcat服务实例部署

    2024-01-10 08:44:03       44 阅读
  12. ES6 新增 Set、Map 两种数据结构的理解

    2024-01-10 08:44:03       51 阅读