Python数据分析与可视化笔记 五 数据清洗 特征工程 特征选择方法

数据清洗

        数据清洗的主要目的是对缺失值、噪声数据、不一致数据、异常数据进行处理和对上述数据质量问题分析时发现的问题进行处理,使得清洁后的数据格式符合标准、不存在异常数据等。

1.缺失值的处理

(1)忽略有缺失值的数据。若某条数据存在缺失项,就删除该条记录;若某个属性列缺失值过多,则在整个数据集中删除该属性,但有可能因此损失大量数据。

(2)进行缺失值填补。可以填补某一固定值、平均值或者根据记录填充最有可能值。可能会利用决策树、回归分析等。

2.噪声数据的处理

(1)分箱技术

        分箱技术通过考察相邻数据来确定最终值,可以实现异常或噪声数据的平滑处理。基本思想是按照属性值划分子区间,若属性值属于某个子区间,就将其放入该子区间对应的“箱子”内。箱的深度表示箱中所含数据记录条数,宽度则表示对应属性值的取值范围。

(2)聚类技术

聚类技术是将数据集合分组为由类似的数据组成的多个簇。聚类技术主要用于找出并清除那些落在簇之外的值(孤立点)。这些孤立点被视为噪声。

(3)回归技术

        通过发现两个相关变量之间的关系,寻找适合两个变量之间的映射关系来平滑处理,即通过建立数学模型来预测下一个数值。

3.不一致数据的处理

        需根据实际情况给出处理方案,可以使用相关材料进行人工修复、对不同源数据进行数据转化等。

4.异常数据的处理

        异常数据大部分情况是很难修正的,只能将其直接过滤掉。有些数据异常可以被还原,如原字符串中掺杂了一些其他无用的字符。

特征工程

        特征工程包括特征选择、特征构建、特征提取。目前是能够用尽量少的特征描述原始数据,同时保持原始数据与分析目的相关的特性。

特征选择

(1)特征是否发散

        如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本没有差异,那么这个特征对样本的区分并没有什么用。

(2)特征是否与分析结果相关

        相关特征是指其取值能够改变分析结果。

(3)特征信息是否冗余

        特征中可能存在一些冗余特征,即两个特征本质上相同,也可以表示为两个特征的相关性比较高。

进行特征选择有以下几种方法

(1)Filter (过滤法)

        按照发散性或者相关对各特征进行评分,设定阈值或待选择阈值的个数,选择特征。

(2)Wrapper(包装法)

        根据目标函数(通常是预测效果评分),每次选择若干特征或者排除若干特征。

(3)Embedded(集成法)

        先使用某些机器学习的算法和模型进行训练,得到各特征的权重系数,根据系数从大到小选择特征,类似过滤法,不同的是通过训练来确定特征的优劣。

最近更新

  1. TCP协议是安全的吗?

    2024-04-01 23:24:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-01 23:24:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-01 23:24:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-01 23:24:02       18 阅读

热门阅读

  1. 常用的设计模式(单例模式和工厂模式)

    2024-04-01 23:24:02       16 阅读
  2. 使用 SQLite数据库,磁盘数据库,也叫本地数据库

    2024-04-01 23:24:02       14 阅读
  3. 关于过四级的一些神级技巧

    2024-04-01 23:24:02       18 阅读
  4. FastAPI+React全栈开发12 搭建FastAPI开发环境

    2024-04-01 23:24:02       12 阅读
  5. 规则引擎QLExpress和Drools的对比

    2024-04-01 23:24:02       13 阅读
  6. 5.控制结构,if、switch、for的使用【go】

    2024-04-01 23:24:02       11 阅读