集成学习算法学习笔记

2024-04-30 21:36:03
开发
30

一、集成学习的基本思想

三个臭皮匠顶一个诸葛亮

集成学习会考虑多个评估器的建模结果，汇总后得到一个综合的结果，以此来获取比单个模型更好的回归或分类表现。

很多独立的机器学习算法：决策树、神经网络、支持向量机

集成学习构建了一组基学习器，并将它们综合起来作为最终的模型。

在很多集成学习模型中，对基学习器的要求很低。

集成学习适用于机器学习的几乎所有领域：回归、分类、推荐和排序。

相同的多个基学习器不会带来任何提升，不同的模型取长补短，每个基学习器都会犯不同的错误，综合起来犯错的可能性不大。

上述数据集中，每个线性模型都不能成功将该数据集分类，3个线性模型的简单综合可将该数据集成功分类。

如何构建不同的学习器？

（1）采用不同的学习算法

（2）采用相同的学习算法，但使用不同的参数

（3）不同的数据集：不同的样本子集，在每个数据集中使用不同的特征

如何综合不同的基学习器？

（1）投票法（majority voting）：每个基学习器具有相同的权重

（2）有权重的投票（weighted voting）：可用不同的方法来确定权重

（3）训练一个新模型来确定如何综合：Stacking; 线性回归

主要的集成学习模式：

（1）Bagging：随机森林（random forest）

（2）Boosting：AdaBoost；Gradient Boosting Decision Tree

（3）Stacking

二、Bagging

boostrap aggregating 引导聚集算法

两个关键步骤：

（1）bootstrap取样

使用可重复取样从样本数为n的数据集中取出n个样本，假设每个样本被选中的概率是一样的

（2）模型综合

易于并计算

可以使用不在训练集Sj中的样本(out of bag sample, OOB)来估计基学习器的性能。

随机森林（Random Forests）

参数选择：

（1）决策数的数目m

（2）每个决策树的大小，由决策树叶节点所能包含的样本数的最大值决定

（3）每次选取最佳变量时随机选取的变量数d1

三、Boosting

boosting：提升

顺次建立一系列基学习器，后面的学习器分析当前已经建立的基学习器以更好的处理数据

（1）AdaBoost

（2）GBDT

基学习器的综合：一般使用有权重的线性组合；基学习器的权重一般由其性能决定

四、Stacking

原文地址:https://blog.csdn.net/m0_46521579/article/details/138249414 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1785302092290854912.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

集成学习算法笔记

2024-04-30 21:36:03 26 阅读
集成学习算法学习笔记

2024-04-30 21:36:03 31 阅读
集成学习笔记

2024-04-30 21:36:03 28 阅读
深度学习算法集成部署

2024-04-30 21:36:03 26 阅读
【机器学习笔记】 9 集成学习

2024-04-30 21:36:03 45 阅读
算法学习笔记（LCA）

2024-04-30 21:36:03 27 阅读
密码算法学习笔记

2024-04-30 21:36:03 22 阅读
算法学习笔记----排序算法

2024-04-30 21:36:03 45 阅读
算法学习笔记（匈牙利算法）

2024-04-30 21:36:03 39 阅读
算法学习笔记：贪心算法

2024-04-30 21:36:03 20 阅读

最近更新

题解 - 序列

2024-04-30 21:36:03 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-04-30 21:36:03 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-04-30 21:36:03 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-04-30 21:36:03 100 阅读
NoSQL之Redis非关系型数据库

2024-04-30 21:36:03 101 阅读
2024.7.22 作业

2024-04-30 21:36:03 97 阅读
GDB调试正在运行的程序

2024-04-30 21:36:03 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-04-30 21:36:03 85 阅读
在Django里面运行非项目文件

2024-04-30 21:36:03 82 阅读
SSD基本架构与工作原理

2024-04-30 21:36:03 87 阅读
在誉天学习完HCIE就业吗？

2024-04-30 21:36:03 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-04-30 21:36:03 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-04-30 21:36:03 85 阅读
go 协程池的实现

2024-04-30 21:36:03 88 阅读
Shell脚本循环语句与函数

2024-04-30 21:36:03 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-04-30 21:36:03 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-04-30 21:36:03 85 阅读
四大引用——强软弱虚

2024-04-30 21:36:03 86 阅读
Python语言-面向对象

2024-04-30 21:36:03 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-04-30 21:36:03 85 阅读
网站安全-CDN篇

2024-04-30 21:36:03 88 阅读