【Python机器学习】无监督学习——不同类型的预处理

2024-06-06 16:34:02
开发
23

之前学习过，一些算法（比如神经网络和SVM）对数据缩放非常敏感。因此，通常的做法是对特征进行调节，使数据更适合于这些算法。通常来说，这是对数据的一种简单的按照特征的缩放和移动。举例：

import mglearn.plots
import matplotlib.pyplot as plt


mglearn.plots.plot_scaling()
plt.show()

如上图，左侧显示的是一个模拟的有两个特征的二分类数据集。第一个特征位于10-15之间，第二个特征大约位于0-9之间。

右侧的4张图展示了4种数据变换方法，都生成了更加标准的范围。

1、scikit-learn中的StandardScaler确保每个特征的平均值为0，方差为1，使所有特征都位于同一量级，但这种缩放不能保证特征任何特定的最大值与最小值。

2、RobustScaler的工作原理与StandardScaler类似，确保每个特征的统计属性都位于同一范围，但RobustScaler使用的是中位数和四分位数，而不是平均值和方差。这样RobustScaler会忽略与其他点有很大不同的数据点（比如测量误差）。这些与众不同的数据点也叫异常值。可能会给其他缩放方法造成麻烦；

3、MinMaxScaler移动数据，使所有特征都刚好位于0-1之间，对于二维数据集来说，所有的数据都包含在x轴0-1与Y轴0-1组成的矩阵之间；

4、Normalizer用到一种完全不同的缩放方法。它对每个数据点进行缩放，使得特征向量的欧式长度等于1，换句话说，它将一个数据点投射在半径为1 的圆上，这意味着每个数据点的缩放比例都不相同。如果只有数据的方向（或角度）是重要的，而特征向量的长度无关紧要，通常会使用这种归一化。

原文地址:https://blog.csdn.net/weixin_39407597/article/details/139450134 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1798634440616972288.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-06-06 16:34:02 114 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-06-06 16:34:02 97 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-06-06 16:34:02 91 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-06-06 16:34:02 97 阅读
NoSQL之Redis非关系型数据库

2024-06-06 16:34:02 98 阅读
2024.7.22 作业

2024-06-06 16:34:02 95 阅读
GDB调试正在运行的程序

2024-06-06 16:34:02 80 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-06-06 16:34:02 79 阅读
在Django里面运行非项目文件

2024-06-06 16:34:02 78 阅读
SSD基本架构与工作原理

2024-06-06 16:34:02 84 阅读
在誉天学习完HCIE就业吗？

2024-06-06 16:34:02 92 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-06-06 16:34:02 82 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-06-06 16:34:02 83 阅读
go 协程池的实现

2024-06-06 16:34:02 85 阅读
Shell脚本循环语句与函数

2024-06-06 16:34:02 86 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-06-06 16:34:02 90 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-06-06 16:34:02 82 阅读
四大引用——强软弱虚

2024-06-06 16:34:02 84 阅读
Python语言-面向对象

2024-06-06 16:34:02 88 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-06-06 16:34:02 81 阅读
网站安全-CDN篇

2024-06-06 16:34:02 85 阅读