机器学习流程—数据预处理 Encoding

机器学习流程—数据预处理 Encoding

在机器学习中,我们经常会遇到分类变量,这些分量变量往往机器学习模型没有办法从中学习,往往有两种,一种是字符型,一种是数值型。通常需要对分类型变量做一些处理,常用的方法有两种:label encoding和one hot encoding。

例如,假设数据集有一个Gender列,其中包含Male 和 Female等分类元素。

  1. 如果分类变量使用数值型表示:这些标签没有特定的偏好顺序,而且由于数据是字符串标签,机器学习模型会误解其中存在某种层次结构。
  2. 如果分类变量使用字符型表示:机器学习模型无法从中学习

解决此问题的一种方法是标签编码,我们将为这些标签分配一个数值,例如将MaleFemale映射到01。但这可能会在我们的模型中增加偏差,因为它将开始对女性参数给予更高的偏好,即 1>0,但理想情况下,两个标签在数据集中同样重要。为了解决这个问题,我们将使用 One Hot Encoding 技术。

One Hot Encoding

对于无层次关系型变量,最好做one hot encoding

优点
它允许在需要数字输入的模型中使用分类变量。

它可以通过向模型提供有关分类变量的更多信息来提高模型性能。

它可以帮助避免序数问题,当分类变量具有自然排序(例如“小”、“中”、“大”)时可能会出现序数问题。

<

相关推荐

  1. 机器学习流程数据预处理 Encoding

    2024-03-10 00:42:03       45 阅读
  2. 机器学习流程数据预处理 缩放和转换

    2024-03-10 00:42:03       41 阅读
  3. 机器学习学习 - 数据预处理

    2024-03-10 00:42:03       30 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-10 00:42:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-10 00:42:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-10 00:42:03       82 阅读
  4. Python语言-面向对象

    2024-03-10 00:42:03       91 阅读

热门阅读

  1. C++vector简单实现

    2024-03-10 00:42:03       44 阅读
  2. 大唐杯学习笔记:Day9

    2024-03-10 00:42:03       45 阅读
  3. QT使用官方VLC以及Ffmpeg库的方法

    2024-03-10 00:42:03       38 阅读
  4. UE4游戏传奇4的SDK的部分数据之-移动状态

    2024-03-10 00:42:03       53 阅读
  5. iperf流量分析

    2024-03-10 00:42:03       52 阅读
  6. Oracle统计信息收集维护

    2024-03-10 00:42:03       49 阅读
  7. C语言深入学习 --- 5.动态内存管理

    2024-03-10 00:42:03       38 阅读
  8. Rust基础教程

    2024-03-10 00:42:03       35 阅读