在机器学习领域中,One-Hot Encoding是什么

一般来说,机器学习模型要求所有的输入输出变量都必须是数字。如果我们的数据中包含了分类数据,我们必须将它们编码成一些数字,这样我们才可以拿去训练和评测一个机器学习模型。

我们常说的分类数据是不能够直接拿来训练、预测的。因为它们一般都不是数值数据(数字),分类数据一般都是一些名称、标签,比如说颜色的分类数据有”红“、”绿“、”黄“、“紫”等等,再比如汽车品牌分类数据有“比亚迪”、“奇瑞”、“长城”、“广汽”等等。它们都缺乏特定的数值。为了能够使用上机器学习算法,我们就要想办法用一些数字去代表它们。这个过程就是数字化编码过程。只要你把够把数字与它们(分类数据)对应上就行。

数字编码技术有很多。其中有一种叫“One-Hot Encoding”,关键python还有相似的库来使用,所以让这种编码就更流行了。编出来的码主要的作用就是与相应分类数据一一对应上,方便机器学习算法的操作。而且这种编码用完就可以丢掉了,hot就体现在这了。它只有在对应着分类数据时才是有意义的。

One-Hot Encoding的思想也很简单,one bit hot encoding,一个比特位热编码。比特位的值只有两个0或1,所以一个比特位代表一个分类。如

奇瑞 广汽 比亚迪 长城
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1

奇瑞: 1000
广汽:0100
比亚迪:0010
长城:0001

sklearn提供了One-Hot encoding的数据预处理工具,我们这里因为是在应用机器学习算法前做的数据处理,所以这个阶段也叫数据预处理。

import numpy as np
from sklearn.preprocessing import OneHotEncoder

categerical_data = np.array([['比亚迪'],['奇瑞'],['长城'],['广汽']])
one_hot_encoder = OneHotEncoder(sparse_output=False)
rs = one_hot_encoder.fit_transform(categerical_data)

结果:
请添加图片描述

相关推荐

  1. 机器学习产品质量控制的具体应用什么

    2024-06-17 06:46:02       73 阅读
  2. 什么机器学习?

    2024-06-17 06:46:02       70 阅读
  3. 机器学习什么?

    2024-06-17 06:46:02       47 阅读
  4. 什么机器学习

    2024-06-17 06:46:02       57 阅读
  5. 机器学习什么

    2024-06-17 06:46:02       48 阅读
  6. 机器学习什么

    2024-06-17 06:46:02       50 阅读
  7. 机器学习什么

    2024-06-17 06:46:02       51 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-17 06:46:02       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-17 06:46:02       106 阅读
  3. 在Django里面运行非项目文件

    2024-06-17 06:46:02       87 阅读
  4. Python语言-面向对象

    2024-06-17 06:46:02       96 阅读

热门阅读

  1. Flutter学习(一)

    2024-06-17 06:46:02       30 阅读
  2. 【websocket】怎么终止websocket断开重连

    2024-06-17 06:46:02       31 阅读
  3. 【Git】撤销远程仓库的提交(push)

    2024-06-17 06:46:02       39 阅读
  4. cbam+lstm代码预测

    2024-06-17 06:46:02       24 阅读
  5. vant的作用及其使用方法

    2024-06-17 06:46:02       34 阅读
  6. 大数据开发语言Scala入门

    2024-06-17 06:46:02       32 阅读
  7. MySQL入门学习-子查询.ANY

    2024-06-17 06:46:02       29 阅读
  8. Vue基础

    Vue基础

    2024-06-17 06:46:02      27 阅读
  9. 动态规划解题步骤

    2024-06-17 06:46:02       33 阅读
  10. 代码随想三刷二叉树篇1

    2024-06-17 06:46:02       25 阅读
  11. 数据结构学习笔记-图

    2024-06-17 06:46:02       34 阅读
  12. TF-IDF算法详细解析与应用

    2024-06-17 06:46:02       30 阅读
  13. 【完整解决方案】生产实战,数据库发生了死锁

    2024-06-17 06:46:02       29 阅读