数据挖掘--数据预处理
- 开发
- 31
-
数据挖掘--引论
数据挖掘--认识数据
数据挖掘--数据预处理
数据挖掘--数据仓库与联机分析处理
数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法
数据挖掘--分类
数据挖掘--聚类分析:基本概念和方法
数据清理
缺失值
- 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
- 更复杂的方法,可以将其转换为分类问题或数值预测问题
噪声数据
- 识别出噪音将其去除 -- 比如孤立点的识别
- 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。
数据集成
冗余和相关分析
标称数据的x^2相关检验
数值数据的协方差
数据归约
- 维归约:减少所考虑的随机变量或属性的个数
- 数量归约:用替代的、较小的数据表示形式替换原数据
- 数据压缩:使用变换,以便得到原数据的归约或“压缩”表示
原文地址:https://blog.csdn.net/Frankabcdefgh/article/details/139506906
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:https://www.suanlizi.com/kf/1799366258374873088.html
如若内容造成侵权/违法违规/事实不符,请联系《酸梨子》网邮箱:1419361763@qq.com进行投诉反馈,一经查实,立即删除!