在这个笔记本中,我们将探讨如何缩放和标准化数据(以及这两者之间的区别)。
让我们开始吧!
设置我们的环境 我们需要做的第一件事就是加载我们将要使用的库。
1、设置我们的环境
我们需要做的第一件事就是加载我们将要使用的库。
In [1]:
# 我们将使用的模块
import pandas as pd
import numpy as np
# 用于Box-Cox变换
from scipy import stats
# 用于最小-最大缩放
from mlxtend.preprocessing import minmax_scaling
# 绘图模块
import seaborn as sns
import matplotlib.pyplot as plt
# 设置种子以保证可重复性
np.random.seed(0)
2、缩放与标准化:有什么区别?
缩放和标准化之间容易混淆的一个原因是,这两个术语有时被交替使用,而且更令人困惑的是,它们非常相似!在这两种情况下,你都在转换数值变量的值,使得转换后的数据点具有特定的有用属性。区别在于:
- 在缩放中,你正在改变数据的范围。
- 而 在标准化中,你正在改变数据分布的形状。 让我们更深入地讨论一下这两个选项。</