机器学习系列12：减少过拟合——降维（特征选择）

2023-12-30 11:38:03
开发
38

对于不支持正则化的模型来说，我们可以通过降低数据的特征维度来减小模型复杂度，从而避免过拟合。

有两种降维方法：

特征选择（feature selection）：从原始特征集中选择一部分特征子集。
特征抽取（feature extraction）：从现有的特征集中抽取信息形成新的特征空间。

顺序特征选择是一种贪心算法，它通过自动选择与问题最相关的特征子集来提升计算效率，剔除不相关的特征或噪声数据来降低模型泛化误差（这对那些不支持正则化的算法来说非常有用）。最终将原始特征从 d 维降低到 k 维。

经典的特征选择算法是顺序反向选择（Sequential Backward Selection，SBS），它旨在通过牺牲一点点模型性能来降低原始数据集的特征维度。在某种程度上，SBS 可以提升过拟合模型的预测性能。

SBS 算法很简单：不断从原始的特征空间中移除特征，直到剩余的特征数达到既定的阈值。

我们需要定义一个判别函数来确定每次移除哪个特征。比如我们可以以移除某个特征之前和之后模型的性能差异作为判别指标。

在 scikit-learn 中实现了两种顺序特征选择算法：顺序反向选择（Sequential Backward Selection，SBS）和顺序前向选择（Sequential Forward Selection，SFS）。

SFS是一种从底向上的方法，第一个特征选择单独最优的特征，第二个特征从其余所有特征中选择与第一个特征组合在一起后表现最优的特征，后面的每一个特征都选择与已经入选的特征组合最优的特征。

scikit-learn 默认使用的是 SFS，所以我们需要指定方向参数为 direction='forward'。

我从 1 开始依次选择红酒数据集的全部 13 个特征，从下图可以看到当特征数量增加到 3 个之后，再增加特征数量模型在训练集上就不会再有明细的性能提升了。

我们可以看是哪 3 个特征能产生这么好的贡献。

通过以下结果可以看到，模型在测试集上仅仅损失了一点点性能。

在实际工作中我们可以牺牲一点点泛化能力来节约大量的计算资源。

原文地址:https://blog.csdn.net/Gabriel100yi/article/details/135288019 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1740940280942694400.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

Sentinel-3如何处理并下载LST数据-陆地表面温度”（Land Surface Temperature）

2023-12-30 11:38:03 44 阅读
Spring Boot整合GraphQL

2023-12-30 11:38:03 26 阅读
Spring Cloud Gateway之Predicate断言详解

2023-12-30 11:38:03 28 阅读
蓝牙简学（一）

2023-12-30 11:38:03 32 阅读
06-C++ 类和对象-多态

2023-12-30 11:38:03 25 阅读
使用css实现 Typora markdown 标题自动编号

2023-12-30 11:38:03 36 阅读
华为OD机试真题-石头剪刀布游戏-2023年OD统一考试（C卷）

2023-12-30 11:38:03 32 阅读
samtools

2023-12-30 11:38:03 36 阅读
小天使的生命之源：新生儿补充铁剂的细致关怀与注意事项

2023-12-30 11:38:03 41 阅读
集群部署篇--Redis 集群分片模式

2023-12-30 11:38:03 38 阅读
智慧工地解决方案，智慧工地项目管理系统源码，支持大屏端、PC端、手机端、平板端

2023-12-30 11:38:03 41 阅读
python实现图像的二维傅里叶变换——冈萨雷斯数字图像处理

2023-12-30 11:38:03 35 阅读
什么是计算机视觉

2023-12-30 11:38:03 33 阅读
PPT录制视频的方法，轻松提升演示效果！

2023-12-30 11:38:03 46 阅读
揭秘营销返利模式！

2023-12-30 11:38:03 42 阅读
CSS 缩减顶部

2023-12-30 11:38:03 28 阅读
摸鱼摸出来的vue3+element-plus毒蘑菇后台管理：新标签页的实现。

2023-12-30 11:38:03 41 阅读
sql中date查询优化

2023-12-30 11:38:03 40 阅读
在Django5中使用Websocket进行通信

2023-12-30 11:38:03 40 阅读
GET和POST请求

2023-12-30 11:38:03 42 阅读
机器学习（三） -- 特征工程（更新中）

2023-12-30 11:38:03 38 阅读
mac修改jar包内容

2023-12-30 11:38:03 37 阅读
mysql二进制对应ef中实体表字段类型

2023-12-30 11:38:03 40 阅读
如何手动升级Chrome插件/Chrome扩展程序？

2023-12-30 11:38:03 60 阅读
centos 防火墙设置 LTS

2023-12-30 11:38:03 46 阅读
shell打印粉色小心心、颜文字心心

2023-12-30 11:38:03 41 阅读
【unity学习笔记】配置模型，实现眨眼和口型效果

2023-12-30 11:38:03 44 阅读
Redis 笔记

2023-12-30 11:38:03 37 阅读
软件测试/测试开发丨Windows系统chromedriver安装与环境变量配置

2023-12-30 11:38:03 44 阅读
小秋SLAM入门实战opencv所有文章汇总

2023-12-30 11:38:03 34 阅读