机器学习 day38（有放回抽样、随机森林算法）

2024-02-17 10:44:04
开发
48

有放回抽样

有放回抽样和无放回抽样的区别：有放回可以确保每轮抽取的结果不一定相同，无放回则每轮抽取的结果都相同
在猫狗的例子中，我们使用”有放回抽样“来抽取10个样本，并组合为一个与原始数据集不同的新数据集，虽然新数据集中可能有重复的样本，也不一定包含原始数据集的所有样本。

随机森林算法

在这里插入图片描述

装袋决策树算法（Bagged decision tree）是适用于决策树集合的一种算法，生成决策树集合的过程如下：
- 对于一个大小为M的原始数据集，进行以下操作：
  - 使用“有放回抽样”，生成一个大小为M的新数据集，在新数据集上训练决策树
- 完成一次后，重复这个操作，直到重复B次（B不需要特别大，因为收益会递减，100左右是比较合适的值）
装袋决策树算法指的是：我们将训练示例放入虚拟袋中，并进行有放回的抽样
装袋决策树算法会导致：根节点处的拆分基本相同，且根节点附近的子节点也很相似，所以最后生成的决策树有大部分相似。为了让每个节点处能选择的特征不同，从而生成更多不同的决策树，提出了鲁棒性更强的随机森林算法。
随机森林算法：在每个拆分节点处，我们的最优子节点的选择不是从所有的特征中选，而是先随机一个小于n的数k，再在包含k个特征的子集中选择最优子节点（当n很大时，通常取k=根号n）
为什么随机森林算法比单个决策树的算法的鲁棒性更强：因为随机森林已经用很多进行了细小修改的数据集来训练算法，并进行平均，所以即便训练集发生一些小变化，也不会对最终输出有很大影响

原文地址:https://blog.csdn.net/u011453680/article/details/136131511 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1758683703883730944.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

机器学习 day38（有放回抽样、随机森林算法）

有放回抽样

随机森林算法

相关推荐

最近更新

热门阅读