用klib加速数据清洗和预处理!

分享一个用于导入、清洗、分析和预处理数据的Python轮子:klib。

klib提供了一系列非常易于应用的函数,具有合理的默认值,几乎可以用在任何 DataFrame 上,用于评估数据质量、获得灵感、执行数据清洗和可视化,从而更轻便、更高效的处理Python Pandas DataFrame数据。


klib可视化数据

-klib.cat_plot(df)  # 展示分类特征数量和频率
-klib.corr_mat(df)  # 相关性矩阵
-klib.corr_plot(df)  # 热力图,适用于展示相关性
-klib.corr_interactive_plot(df, split="neg").show()  # 交互式相关性图表
-klib.dist_plot(df)  # 每个数值特征的分布
-klib.missingval_plot(df)  # 缺失值信息图

例如,cat_plot,

import klib
import plotly
import pandas as pd

df = pd.read_csv("./NFL_DATASET.csv").iloc[:, 10:]
df_cleaned = klib.data_cleaning(df) #清洗
klib.cat_plot(df_cleaned.iloc[:, 10:28], figsize=(24, 15)) #cat_plot可视化

例如,展示缺省值,

klib.missingval_plot(df_cleaned)

  

再例如,corr_interactive_plot基于plotly构建交互式相关性图表,

klib.corr_interactive_plot(df, annot=False, figsize=(20,17))

klib清洗数据

主要包含如下函数,

-klib.data_cleaning(df)  # 执行数据清洗(删除重复项和空行/列,调整数据类型等)
-klib.clean_column_names(df)  # 清理和标准化列名,也在 data_cleaning() 中调用
-klib.convert_datatypes(df)  # 将现有数据转换为更高效的数据类型,也在 data_cleaning() 中调用
-klib.drop_missing(df)  # 删除缺失值,也在 data_cleaning() 中调用
-klib.mv_col_handling(df)  # 基于信息内容删除缺失值比率高的特征
-klib.pool_duplicate_subsets(df)  # 基于最小信息损失汇总具有重复项的列子集

不一一举例,👉https://github.com/akanz1/klib 

更多干货👇

相关推荐

  1. NLP数据清洗:文本预处理

    2023-12-05 16:00:11       34 阅读
  2. 数据清洗预处理:打造高质量数据分析基础

    2023-12-05 16:00:11       39 阅读
  3. 数据预处理:标准化归一化

    2023-12-05 16:00:11       55 阅读
  4. PyTorch深度学习——数据输入预处理

    2023-12-05 16:00:11       31 阅读
  5. Python数据预处理特征工程

    2023-12-05 16:00:11       18 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-05 16:00:11       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-05 16:00:11       100 阅读
  3. 在Django里面运行非项目文件

    2023-12-05 16:00:11       82 阅读
  4. Python语言-面向对象

    2023-12-05 16:00:11       91 阅读

热门阅读

  1. [Python] 将文字转化到图片上显示

    2023-12-05 16:00:11       61 阅读
  2. 系统部署安装-Centos7-Kafka

    2023-12-05 16:00:11       61 阅读
  3. zxjy002- 后端项目环境搭建

    2023-12-05 16:00:11       50 阅读
  4. 振动和震动的区别?

    2023-12-05 16:00:11       189 阅读
  5. 创建Dataloader基础篇【一】

    2023-12-05 16:00:11       67 阅读
  6. 使用开源的frp进行内网穿透教程

    2023-12-05 16:00:11       64 阅读
  7. 第1节:Vue3 安装部署 创建应用(实例)

    2023-12-05 16:00:11       47 阅读
  8. tomcat 弱口令war远程部署

    2023-12-05 16:00:11       61 阅读
  9. Android 打包配置与输出教程

    2023-12-05 16:00:11       57 阅读
  10. 安陆FPGA调试中遇到的问题总结

    2023-12-05 16:00:11       70 阅读