python sklearn labelencoder、OneHotEncoder和get_dummies的区别

2024-01-30 09:42:02
开发
27

文章目录

labelencoder

LabelEncoder 将不连续的数字or文本进行编号

import numpy as np
import pandas as pd
data = pd.DataFrame({
   "学号":[1001,1002,1003,1004],
                    "性别":["男","女","女","男"],
                    "学历":["本科","硕士","专科","本科"]})
data

学号	性别	学历
0	1001	男	本科
1	1002	女	硕士
2	1003	女	专科
3	1004	男	本科

## 选择object类型的变量
lis = list(data.select_dtypes(include='object').columns)
lis

['性别', '学历']

使用LabelEncoder进行编码，每个变量单独进行多变量的编码

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

for m in lis:
    data[m] = le.fit_transform(data[m])
 
data

OneHotEncoder

OneHotEncoder 对表示分类的数字进行编码

输入的应该是表示类别的数字，如果输入文本，会报错的。

from sklearn.preprocessing import OneHotEncoder
OHE = OneHotEncoder()
OHE.fit(data)

data3 = le.fit_transform(data["性别"])
OHE.fit(data3.reshape(-1,1))
OHE.transform(data3.reshape(-1,1)).toarray()

array([[0., 1.],
       [1., 0.],
       [1., 0.],
       [0., 1.]])

get_dummies

get_dummies的效果和LabelEncoder一致

pd.get_dummies(data)

	学号	性别	学历
0	1001	1	1
1	1002	0	2
2	1003	0	0
3	1004	1	1

LabelBinarizer

对因变量y不能用OneHotEncoder，要用LabelBinarizer。

from sklearn.preprocessing import LabelBinarizer

lab = LabelEncoder()

lab.fit_transform(data['学历'])

array([1, 2, 0, 1], dtype=int64)

原文地址:https://blog.csdn.net/weixin_46530492/article/details/135854710 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1752145107907383296.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

python sklearn labelencoder、OneHotEncoder和get_dummies的区别

文章目录

labelencoder

OneHotEncoder

get_dummies

LabelBinarizer

相关推荐

最近更新

热门阅读