决策树学习笔记

 一、衡量标准——熵

H(X)=-\sum p_i \log(p_i)

随机变量不确定性的度量

信息增益:表示特征X使得类Y的不确定性减少的程度。

二、数据集

14天的打球情况

特征:4种环境变化(天气、温度等等)

在上述数据种,14天中打球的天数为9天;不打球的天数为5天,计算熵值为

H(X)=-\frac{5}{14} \log(\frac{5}{14}) - \frac{9}{14} \log(\frac{9}{14}) = 0.940

(1)选择outlook作为根节点

计算加权

\frac{5}{14}*0.971+\frac{4}{14}*0+\frac{5}{14}*0.971=0.693

gain(outlook) = 0.940-0.693 = 0.247

类似计算:

gain(temp) = 0.029

gain(humidity) = 0.152

gain(windy) = 0.048

outlook的信息增益最大,因此选择outlook作为根节点

以此类推,确定每一个子树的根节点

三、决策树算法

ID3: 信息增益

C4.5: 信息增益率 

CART: GINI系数

1-\sum p_k^2

四、剪枝

决策树过拟合风险很大,理论上可以将数据完全分开,即一个叶子节点一个数据,因此需要对决策数进行剪枝操作。

剪枝策略:预剪枝和后剪枝

预剪枝:边建立决策树边进行剪枝操作

后剪枝:当建立完决策树后来进行剪枝操作

相关推荐

  1. 机器学习-决策

    2024-04-28 11:44:03       42 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-28 11:44:03       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-28 11:44:03       106 阅读
  3. 在Django里面运行非项目文件

    2024-04-28 11:44:03       87 阅读
  4. Python语言-面向对象

    2024-04-28 11:44:03       96 阅读

热门阅读

  1. python读取文件

    2024-04-28 11:44:03       27 阅读
  2. PYTHON 访问NVD获取漏洞信息保存到本地数据库

    2024-04-28 11:44:03       34 阅读
  3. 软件安装与配置

    2024-04-28 11:44:03       26 阅读
  4. 自动化生产线的常见问题及维护方法

    2024-04-28 11:44:03       33 阅读
  5. 对象存储服务中对象业务的非标接口

    2024-04-28 11:44:03       30 阅读
  6. 当服务器遭到攻击怎么办?

    2024-04-28 11:44:03       25 阅读
  7. 【C++】6-11 停车场收费问题 分数 20

    2024-04-28 11:44:03       33 阅读
  8. Linux 下一些简单配置和软件安装

    2024-04-28 11:44:03       41 阅读