机器学习系列 16:使用 scikit-learn 的 Pipeline

在机器学习项目中,我们经常需要进行大量的数据预处理步骤,最后用处理干净的数据集来拟合机器学习算法得到一个合适的机器学习模型。

scikit-learn 提供了一个强大的 Pipeline 类来帮助我们将所有的数据预处理步骤和训练模型的步骤串起来。就像流水线一样,前一个步骤处理完的结果输入到下一个步骤,依次处理。

这里我们将使用 UCI 提供的威斯康星洲乳腺癌数据集,下载地址如下:

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

这个数据集一共包含 569 个样本,每个样本有 30 个实数值特征,数据集的前 2 列分别是标识病人的 ID 和肿瘤诊断结果(M 表示恶性,B 表示良性)。让我们首先加载数据集,然后抽取出特征 X 和类别 y,我们还用了 scikit-learn 提供的 LabelEncoder 将字符串表示的样本类别编码成数字表示。

图片

现在我们已经将 M 编码成 1,B 编码成 0。

然后我们将数据集拆分成训练集和测试集,其中训练集占 80%,测试集占 20%。

图片

许多机器学习算法要求输入的特征的取值范围都在同一个范围内,由于这里的数据集中的特征是以不同的度量标准测到的,所以我们需要标准化特征。然后,假设我们还要将这 30 维的高维数据通过 PCA 压缩到 2 维空间。最后我们用数据集拟合逻辑回归算法得到一个二分类模型。

我们可以通过 make_pipeline 函数将中上述步骤中涉及的标准化、PCA 和训练模型串到一个管道(pipeline)中。

图片

make_pipeline 函数可以接收任意数量的 scikit-learn transformer(包含 fit 和 trasnform 方法的对象),最后跟一个 scikit-learn estimator(实现了 fit 和 predict 方法的对象)。

在前面的例子中,StandardScaler() 和 PCA() 就是 transformer,LogisticRegression 就是 estimator。

在我调用 pipe_lr 的 fit 方法时,Pipeline 会先调用 transformer 的 fit_transform 方法(fit_transform 方法其实先调用 fit 再调用 transform),然后调用 estimator 的 fit 方法来训练模型。

如果我们在 Pipeline 的最后加了一个 estimator,那么我们可以通过调用 pipe_lr 的 predict 方法来对新数据进行同样的预处理,然后对预处理后的新数据进行预测。

图片

通过上图我们可以看到 Pipeline 将数据预处理和训练模型这些步骤串联起来,使得我们从头到尾就像在使用一个对象一样。

相关推荐

  1. 机器学习scikit-learn实现

    2024-01-30 06:36:05       53 阅读
  2. Jupyter Notebook与机器学习使用Scikit-Learn构建模型

    2024-01-30 06:36:05       26 阅读
  3. 使用scikit-learn进行机器学习:基础教程

    2024-01-30 06:36:05       26 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-30 06:36:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-30 06:36:05       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-30 06:36:05       82 阅读
  4. Python语言-面向对象

    2024-01-30 06:36:05       91 阅读

热门阅读

  1. 搭建gitlab仓库

    2024-01-30 06:36:05       60 阅读
  2. 【C语言】实现程序的暂停

    2024-01-30 06:36:05       48 阅读
  3. Ceph应用

    2024-01-30 06:36:05       44 阅读
  4. layui-vue + Flask 实现 Table 排序显示

    2024-01-30 06:36:05       56 阅读
  5. pfc001 Not enough information

    2024-01-30 06:36:05       41 阅读
  6. 如何将抖音API应用于抖音视频的录制和上传

    2024-01-30 06:36:05       182 阅读