SparkSQL异常数据清洗API

SparkSQL数据清洗API

但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据,spark提供了一些api方便我们进行数据清洗

1. 去重方法dropDuplicates()

功能:对DF的数据进行去重,如果重复数据有多条,取第一条

  • 去重API dropDuplicates,无参数时是对数据进行整体去重
    df.dropDuplicate().show()
  • API同样可以针对字段进行去重,如下传入age字段,表示只要年龄一样就认为你是重复数据,传入age和job表示结合年龄和job来去重
    df.dropDuplicates([‘age’, ‘job’]).show()
2. 缺失值处理dropna()

def dropna(self,how=‘any’,thresh=None,subset=None):
返回的市一个没有(指定)空值的dataFrame
param how:'any’or ‘all’,如果参数为any(默认any),那么只要df一行包含空值,就会被去除,如果是all,只会把一行都为空的去除。
param thresh:int,default None
表示这一行的数据有效的(非空)的数据必须达到该参数设定的阈值,如果没达到,那么就删除该行数据
param subset:指定列对缺失值判断,该列缺失则删除该行数据

需要注意的是,如果我们结合thres和subset,意义并不是二者的叠加,而是在指定的subset中,列数要达到thres阈值,而不是任意的列数非空达到阈值和保存subset指定的列
df.dropna(thres=2, [‘name’, ‘age’])
标识’name’和’age’列至少两列都不为空才保留

3. 缺失值填充fillna()
  • 如果不指定列,默认把所有空值都填充为指定数据
    df.fillna(“N/A”)
  • 如果指定列,则填充指定列的空值
    df.fillna(“N/A”, subset=[‘job’])
  • 想要指定多个列不同的填充内容,可以定义一个字典,根据字典对应的值来填充
    df.fillna({“name”: “N/A”, “age”: 0})

相关推荐

  1. SparkSQL异常数据清洗API

    2024-03-29 16:26:04       47 阅读
  2. 机器学习——数据清洗

    2024-03-29 16:26:04       44 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-29 16:26:04       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-29 16:26:04       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-29 16:26:04       82 阅读
  4. Python语言-面向对象

    2024-03-29 16:26:04       91 阅读

热门阅读

  1. CentOS7.x 上安装并配置 MySQL 8.x

    2024-03-29 16:26:04       43 阅读
  2. 小程序配置服务器域名

    2024-03-29 16:26:04       52 阅读
  3. 构建docker环境下的thunder迅雷插件

    2024-03-29 16:26:04       49 阅读
  4. C#——系统学习(类与对象)

    2024-03-29 16:26:04       42 阅读
  5. 笔记82:关于 C++ 中的 swap 函数

    2024-03-29 16:26:04       40 阅读
  6. SQL中如何添加数据【保姆】

    2024-03-29 16:26:04       36 阅读
  7. sql server用nest typeorm实现索引的方式

    2024-03-29 16:26:04       38 阅读
  8. cesium NearFarScalar pixelOffsetScaleByDistance

    2024-03-29 16:26:04       40 阅读
  9. Compose UI 之 FloatingActionButton 按钮

    2024-03-29 16:26:04       40 阅读
  10. Docker 四种镜像制作方式

    2024-03-29 16:26:04       42 阅读