机器学习——数据预处理和特征工程（sklearn）

默认均值。填补缺失值的策略。

        输入“mean” ：使用均值填补（仅对数值型特征可用）。

        输入“median” ：用中值填补（仅对数值型特征可用）。

        输入“most_frequent”： 用众数填补（对数值型和字符型特征都可用）。

        输入“constant” ：表示请参考参数 “ fill_value" 中的值（对数值型和字符型特征都可用）。

③ fill_value

常用 0。当参数 “startegy” 为 “constant” 的时候可用，可输入字符串或数字表示要填充的值。

④ copy

默认为True。将创建特征矩阵的副本，反之则会将缺失值填补到原本的特征矩阵中去。

from sklearn.impute import SimpleImputer

imp_mean = SimpleImputer() # 均值填补
imp_median = SimpleImputer(strategy="median")  # 中位数填补
imp_0 = SimpleImputer(strategy="constant", fill_value=0) # 0 填补

3. 处理分类型特征：编码与哑变量

（1）preprocessing.LabelEncoder：标签专用，能够将分类转换为分类数值。

（2）preprocessing.OrdinalEncoder：特征专用，能够将分类特征转换为分类数值。

（3）preprocessing.OneHotEncoder：独热编码，创建哑变量。

我们把分类转换成数字的时候，忽略了数字中自带的 数学性质，所以给算法传达了一些不准确的信息，而这会影响我们的建模。类别 OrdinalEncoder 可以用来处理有序变量，但对于名义变量，我们只有使用哑变量的方式来处理，才能够尽量向算法传达最准确的信息。

数据类型以及常用的统计量：

from sklearn.preprocessing import OneHotEncoder

enc = OneHotEncoder(categories='auto').fit(x)
result = enc.transform(x)

4. 处理连续型特征：二值化与分段

（1）preprocessing.Binarizer

根据阈值将数据二值化（将特征值设置为 0 或 1），用于处理连续型变量。大于阈值的值映射为 1，而小于或等于阈值的值映射为 0。默认阈值为 0 时，特征中所有的正值都映射到 1。

from sklearn.preprocessing import Binarizer

transformer = Binarizer(threshold=30).fit_transform(x)

（2）preprocessing.KBinsDiscretizer

将连续型变量划分为分类变量，能够将连续型变量排序后按顺序分箱后编码。

① n_bins

默认 5。每个特征中分箱的个数，即一次会被运用到所有导入的特征。

② encode

        默认 “ onehot ”。编码的方式。

        “onehot”：做哑变量，之后返回一个稀疏矩阵，每一列是一个特征中的一个类别，含有该类别的样本表示为1，不含的表示为0。

        “ordinar”：每个特征的每个箱都被编码为一个整数，返回每一列是一个特征，每个特征下含有不同整数编码的箱的矩阵。

        “onehot-dense”：做哑变量，之后返回一个密集数组。

③ strategy

        默认“quantile”。用来定义箱宽的方式。

        “uniform”：表示等宽分箱，即每个特征中的每个箱的最大值之间的差为（特征.max（）- 特征.min（））/（n_bins）。

        “quantile”：表示等位分箱，即每个特征中的每个箱内的样本数量都相同。

        “kmeans”：表示按聚类分箱，每个箱中的值到最近的一维 k均值聚类的簇心得距离都相同。

from sklearn.preprocessing import KBinsDiscretizer

est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit_transform(x)

四、特征选择

涉及包：feature_selection

从所有的特征中，选择出有意义，对模型有帮助的特征，以避免必须将所有特征都导入模型去训练的情况。有四种方法可以用来选择特征：过滤法、嵌入法、包装法和降维算法。

1. Filter过滤法

过滤方法通常用作预处理步骤，特征选择完全独立于任何机器学习算法。它是根据各种统计检验中的分数以及相关性的各项指标来选择特征。

过滤法的主要对象是：需要遍历特征或升维的算法们。

过滤法的主要目的是：在维持算法表现的前提下，帮助算法们降低计算成本。

（1）方差过滤

sklearn 中通过 VarianceThreshold 实现。

重要参数：threshold。表示方差的阈值，表示舍弃所有方差小于 threshold的特征，不填默认为 0，即删除所有的记录都相同的特征。

（2）相关性过滤

我们希望选出与标签相关且有意义的特征，因为这样的特征能够为我们提供大量信息。如果特征与标签无关，那只会白白浪费我们的计算内存，可能还会给模型带来噪音。在sklearn当中，有三种常用的方法来评判特征与标签之间的相关性：卡方、F检验、互信息。

① 卡方过滤

卡方过滤是专门针对离散型标签（即分类问题）的相关性过滤，卡方检验类feature_selection.chi2 计算每个非负特征和标签之间的卡方统计量，并依照卡方统计量由高到低为特征排名。再结合 feature_selection.SelectKBest 这个可以输入 “评分标准” 来选出前 K 个分数最高的特征的类，我们可以借此除去最可能独立于标签，与我们分类目的无关的特征。

卡方检验的本质是推测两组数据之间的差异，其检验的原假设是 “ 两组数据是相互独立的 ”。卡方检验 返回卡方值和 P值两个统计量，其中卡方值很难界定有效的范围，而 p值，我们一般使用 0.01 或 0.05 作为显著性水平，即 p值判断的边界。

② F检验

F检验，又称ANOVA，方差齐性检验，是用来捕捉每个特征与标签之间的线性关系的过滤方法。它即可以做回归也可以做分类，因此包含 feature_selection.f.classif（F检验分类）和feature_selection.f.regression（F检验回归）两个类。其中 F 检验分类用于标签是离散型变量的数据，而 F 检验回归用于标签是连续型变量的数据。和卡方检验一样，这两个类需要和类SelectKBest 连用。

需要注意的是，F 检验在数据服从正态分布时效果会非常稳定，因此如果使用 F 检验过滤，我们会先将数据转换成服从正态分布的方式。

F 检验的本质是寻找两组数据之问的线性关系，其原假设是 “ 数据不存在显著的线性关系 ”。它返回 F 值和 P 值两个统计量。和卡方过滤一样，我们希望选取 p 值小于 0.05或0.01 的特征，这些特征与标签时显著线性相关的，而 p 值大于 0.05 或 0.01 的特征则被我们认为是和标签没有显著线性关系的特征，应该被删除。

③ 互信息法

互信息法是用来捕捉每个特征与标签之间的任意关系（包括线性和非线性关系）的过滤方法。和 F 检验相似，它既可以做回归也可以做分类，并且包含两个类feature_selection.mutual_info_classif（互信息分类）和feature_selection.mutual_info_regression（互信息回归）。这两个类的用法和參数都和 F 检验一模一样，不过互信息法比 F 检验更加强大，F 检验只能够找出线性关系，而互信息法可以找出任意关系。

互信息法不返回 P 值或 F 值类似的统计量，它返回 “ 每个特征与目标之间的互信息量的估计 ”，这个估计量在［0, 1］之间取值，为 0 则表示两个变量独立，为 1 则表示两个变量完全相关。

2. Embedded嵌入法

嵌入法是一种让算法自己决定使用哪些特征的方法，即特征选择和算法训练同时进行。

在使用嵌入法时，我们先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性，我们可以列出各个特征对树的建立的贡献，我们就可以基于这种贡献的评估，找出对模型建立最有用的特征。

相比于过滤法，嵌入法的结果会更加精确到模型的效用本身，对于提高模型效力有更好的效果。并且，由于考虑特征对模型的贡献，因此无关的特征（需要相关性过滤的特征）和无区分度的特征（需要方差过滤的特征）都会因为缺乏对模型的贡献而被删除掉，可谓是过滤法的进化版。

sklearn 中通过 SelectFromModel 实现。

这是一个元变换器，可以与任何在拟合后具有coef_，feature_importances_属性或参数中可选惩罚项的评估器一起使用。

对于有 feature_importances_ 的模型来说，若重要性低于提供的阈值参数，则认为这些特征不重要并被移除。feature_importances_ 的取值范围是 [0, 1]，如果设置阈值很小，比如 0.001，就可以删除那些对标签预测完全没贡献的特征。如果设置得很接近 1，可能只有一两个特征能够被留下。

class sklearn.feature_selection.SelectFromModel（estimator, threshold=None, prefit=False, norm_order=1, max_features=None）

3. Wrapper包装法

包装法也是一个特征选择和算法训练同时进行的方法，与嵌入法十分相似，它也是依赖于算法自身的选择，但不同的是，我们往往使用一个目标函数作为黑盒来帮助我们选取特征，而不是自己输入某个评估指标或统计量的阈值。

包装法在初始特征集上训练评估器，并且通过 coef_ 属性或通过 feature_importances_ 属性获得每个特征的重要性。然后，从当前的一组特征中修剪最不重要的特征。在修剪的集合上递归地重复该过程，直到最终到达所需数量的要选择的特征。

区别于过滤法和嵌入法的一次训练解决所有问题，包装法要使用特征子集进行多次训练，因此它所需要的计算成本是最高的。

注：在这个图中的 "算法” ，指的不是我们最终用来导入数据的分类或回归算法，而是专业的数据挖掘算法，即我们的目标函数。这些数据挖掘算法的核心功能就是选取最佳特征子集。

最典型的目标函数是递归特征消除法（Recursive feature elimination，简写为RFE），即sklearn中的 feature selection.RFE

class sklearn.feature_selection.RFE（estimator, n_features_to_select=None, step=1, verbose=0）

① estimator：需要填写的实例化后的评估器。

② n_features_to_select：想要选择的特征个数。

③ step：表示每次迭代中希望移除的特征个数。

RFE类的两个很重要的属性：

① .support_：返回所有的特征是否被选中的布尔矩阵。

② .ranking_：返回特征的按数次迭代中综合重要性的。

4. 总结+补充

① 大多数机器学习算法中，会选择 StandardScaler 来进行特征缩放，因为 MinMaxScaler 对异常值非常敏感。MinMaxScaler 在不涉及距离度量、梯度、协方差计算以及数据需要被时使用广泛。

② 在嵌入法下，我们很容易就能够实现特征选择的目标：减少计算量，提升模型表现。因此，比起要思考很多统计量的过滤法来说，嵌入法可能是更有效的一种方法。然而，在算法本身很复杂的时候，过滤法的计算远远比嵌入法要快，所以大型数据中，我们还是会优先考虑过滤法。

③ 经验来说，过滤法更快速，但更粗糙。包装法和嵌入法更精确，比较适合具体到算法去调整，但计算量比较大，运行时间长。当数据量很大的时候，优先使用方差过滤和互信息法调整，再上其他特征选择方法。使用逻辑回归时，优先使用嵌入法。使用支持向量机时，优先使用包装法。迷茫的时候，从过滤法走起，看具体数据具体分析。

④ 特征选择只是特征工程中的第一步。真正的高手，往往使用特征创造或特征提取来寻找高级特征。