机器学习笔记 - Python数据清理通用流程简述

一、简述

        Python中数据清理是重要的环节,并通过解决缺失值、离群值、重复和不一致等常见问题以进行下一步的数据分析。

        通常我们开始一个新的数据项目时,通因为各种各样的问题,通常获得的数据很少能直接上到模型里面去跑,所以要进行清理,清理数据是一个消除错误、异常值和不一致并确保所有数据采用适合我们分析的格式的过程。

        包含许多错误或未经过此数据清理过程的数据称为脏数据。

        比如下面的一个小数据集,虽然大家分数都不高,但是小李有两条重复的数据,如果我们计算分数列的平均值,那么这个数据是不准确的。

姓名 分数
小李 36
小王 40
小李 36
小张 35

二、脏数据

1、缺失值

        不完整的数据集极为常见。可能缺少几年的数据,可能仅包含有关客户的部分信息。

相关推荐

  1. 机器学习笔记 - Python数据清理通用流程简述

    2024-05-02 09:20:01       38 阅读
  2. 机器学习通用流程

    2024-05-02 09:20:01       27 阅读
  3. Python | 机器学习数据清洗

    2024-05-02 09:20:01       64 阅读
  4. 机器学习——数据清洗

    2024-05-02 09:20:01       44 阅读
  5. 机器学习流程数据收集

    2024-05-02 09:20:01       37 阅读
  6. 机器学习流程数据预处理 Encoding

    2024-05-02 09:20:01       46 阅读
  7. Kafka数据清理机制

    2024-05-02 09:20:01       46 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-02 09:20:01       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-02 09:20:01       106 阅读
  3. 在Django里面运行非项目文件

    2024-05-02 09:20:01       87 阅读
  4. Python语言-面向对象

    2024-05-02 09:20:01       96 阅读

热门阅读

  1. springboot基础

    2024-05-02 09:20:01       31 阅读
  2. 5-用户权限控制(前端)

    2024-05-02 09:20:01       29 阅读
  3. 我选择哪个区块链平台将作品转化为NFT最合适?

    2024-05-02 09:20:01       35 阅读
  4. 设计模式-03 设计模式-依赖倒转原则案例分析

    2024-05-02 09:20:01       30 阅读
  5. Spring-MVC从入门到精通

    2024-05-02 09:20:01       22 阅读
  6. CAN测试工具

    2024-05-02 09:20:01       33 阅读
  7. CKEditor编辑器的简单使用方法,取值,赋值

    2024-05-02 09:20:01       29 阅读
  8. Github 2024-05-01 开源项目日报Top10

    2024-05-02 09:20:01       33 阅读
  9. map和set

    map和set

    2024-05-02 09:20:01      28 阅读
  10. 如何在Dlib库中实现目标跟踪

    2024-05-02 09:20:01       28 阅读
  11. C\#工控行业中的视觉技术栈

    2024-05-02 09:20:01       35 阅读
  12. 【Unity Consoler Redirection】Unity Log 跳转重定向

    2024-05-02 09:20:01       30 阅读
  13. golang netpoller揭秘

    2024-05-02 09:20:01       22 阅读