数据预处理：标准化和归一化

2024-01-02 10:46:03
开发
37

标准化和归一化简介

1、数据预处理概述

在选择了合适模型的前提下，机器学习可谓是“训练台上3分钟，数据数量和质量台下10年功”。数据的收集与准备是机器学习中的重要一步，是构建一个好的预测模型大厦的基石。数据的数量与质量直接决定了预测模型的好坏

所以，在数据的收集与准备这一步中，必须做好数据预处理。Scikit-Learn提供了标准化和归一化等API方便我们进行数据预处理。标准化和归一化是常用的数据缩放方式

数据预处理的一般顺序（不一定全需要做）为：处理离群值、处理缺失值、标准化或归一化、纠偏、连续特征离散化、类别特征编码、特征增强和对不平衡数据集的处理（仅针对分类问题）

那么，为什么要进行标准化和归一化呢？

例如，我们的某个样本与其它样本数值相差较大，那么，该样本特征的方差就会比其他样本特征大几个数量级，那么，它就会在学习算法中占据主导位置，导致学习器并不能像我们说期望的那样，从其他特征中学习。也就是说，该样本会主导其它样本，最终导致预测结果的偏差

当某个或某些特征的单位或大小与其它样本相差较大，或者某特征的方差比其他的特征要大出几个数量级，那么，该特征就容易影响（支配）目标结果，使得一些算法无法学习到其他的特征，即无量纲化

因此，我们需要做的是对样本数据进行数据标准化或归一化，将所有的数据映射到同一尺度

2、数据标准化

2.1、什么是数据标准化

定义：数据标准化通过减去均值然后除以方差（或标准差），转化为均值为0，标准差为1的标准正态分布，转化公式为：
$X^{'}=\frac{X-\mu}{\sigma}$

其中， $\mu$ 为均值， $\sigma$ 为标准差。标准化操作是将数据按其属性（按列）减去平均值，然后再除以标准差

当数据X按均值 $\mu$ 中心化后，再按标准差 $\sigma$

原文地址:https://blog.csdn.net/weixin_55629186/article/details/135318908 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1742014359615442944.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

基于图论的图像分割 python + PyQt5

2024-01-02 10:46:03 36 阅读
机器学习中字符特征的处理方式

2024-01-02 10:46:03 40 阅读
c 生成16×16个像素点的rgb图片并转为yuv420P 格式

2024-01-02 10:46:03 30 阅读
TDD-LTE TAU流程

2024-01-02 10:46:03 25 阅读
MATLAB --- fullfile()函数的用法

2024-01-02 10:46:03 41 阅读
【Hadoop】集群配置之主要配置文件（hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml...）

2024-01-02 10:46:03 39 阅读
010、切片

2024-01-02 10:46:03 38 阅读
labuladong日常刷题-差分数组 | LeetCode 1109航班预定统计 | 花式遍历 151反转字符串里的单词

2024-01-02 10:46:03 44 阅读
LeetCode 224：基本计算器

2024-01-02 10:46:03 39 阅读
LeetCode 热题 100——283. 移动零

2024-01-02 10:46:03 42 阅读
【js】js实现多个视频连续播放：

2024-01-02 10:46:03 34 阅读
mysqldump导出函数、存储过程和视图

2024-01-02 10:46:03 46 阅读
【排序算法】LeetCode-347. 前 K 个高频元素

2024-01-02 10:46:03 34 阅读
系统监视工具 | htop

2024-01-02 10:46:03 35 阅读
$Attention机制$

Attention机制

2024-01-02 10:46:03 37 阅读
【数据结构-单链表】（C语言版本）

2024-01-02 10:46:03 34 阅读
Linux Shell 021-输入输出重定向

2024-01-02 10:46:03 39 阅读
python 通过高德地图POI多边形搜索需要的数据

2024-01-02 10:46:03 35 阅读
监控电脑的软件（无感知、无进程、无图标）

2024-01-02 10:46:03 41 阅读
炫酷鼠标悬停随机渐变文本动画效果

2024-01-02 10:46:03 34 阅读
用LCD循环右移显示“Welcome to China“

2024-01-02 10:46:03 36 阅读
概率论基础

2024-01-02 10:46:03 25 阅读
用LCD显示字符‘A‘

2024-01-02 10:46:03 35 阅读
外包干了2个月，技术退步明显.......

2024-01-02 10:46:03 37 阅读
c基础（二）

2024-01-02 10:46:03 36 阅读
shell变量详解

2024-01-02 10:46:03 32 阅读
RocketMQ 生产者源码分析：DefaultMQProducer、DefaultMQProducerImpl

2024-01-02 10:46:03 31 阅读
Android中线程间的通信-Handler

2024-01-02 10:46:03 33 阅读
SpringIOC之support模块ContextTypeMatchClassLoader

2024-01-02 10:46:03 42 阅读
浪潮软件开发校招面试一面凉经

2024-01-02 10:46:03 38 阅读