李宏毅2022机器学习/深度学习 个人笔记(1)

本系列用于推导、记录该系列视频中本人不熟悉、或认为有价值的知识点

本篇记录第一讲(选修):神奇宝贝分类

在这里插入图片描述
如图,为了估算某个样本属于某类的概率,在二分类问题中,我们需要计算红框所示的4个参数,现在进入实例:
在这里插入图片描述
如图,我们在ID<400的宝可梦中选出水系和普通系用于训练。首先估计图中所示的2个参数,使用下图右下角红框方法计算即可
在这里插入图片描述
现在,为了从训练集中估算出某种测试集中宝可梦出现的机率,需要根据已知的数据估算一个模型,请看图:
在这里插入图片描述
先只考虑二维特征的情况,假设此时水系宝可梦的分布是二维正态分布,我们需要找到使该分布最可能符合上图状况的meancovariance,如下图所示:
在这里插入图片描述
有了这2个参数,我们就可以观察出任意输入被sample出的相对几率大小。

怎么找meancovariance?用Maximum Likelihood!只需找到对应参数,使似然函数
在这里插入图片描述
最大即可,具体方法可如下计算:
在这里插入图片描述
由此,可分别计算出水系和一般系的水平宝贝的参数如下图:
在这里插入图片描述
现在,我们终于可以做分类了,计算依据如下:
在这里插入图片描述
所需的各个参数也都有了:
(尽管用概率分布来算概率不太严谨)
在这里插入图片描述
由此,可以绘图如下,根据boundary观察分类效果:
在这里插入图片描述
二维空间的表现不太好,也许七维空间会更好?我们用同样方法计算出参数:
在这里插入图片描述
但最终表现也不太好……我们应该如何改进?

当维度变为七维时,协方差矩阵很大,参数很多,可能出现过拟合。于是我们把两个协方差矩阵弄成同一个,可以减少49个参数。现在,推导省略,见下图:
在这里插入图片描述
有了公共协方差矩阵以后,边界也会变成直线(图放不下了),转个人笔记(2)

最近更新

  1. Oracle数据库服务器CPU占用率巨高的问题排查思路

    2024-04-25 13:54:05       0 阅读
  2. WebKit简介及工作流程

    2024-04-25 13:54:05       0 阅读
  3. nlp中tokenizer用法

    2024-04-25 13:54:05       1 阅读
  4. 2.Date类型的请求参数

    2024-04-25 13:54:05       0 阅读
  5. 基于antdesign封装一个react的上传组件

    2024-04-25 13:54:05       0 阅读

热门阅读

  1. Docker初探

    2024-04-25 13:54:05       9 阅读
  2. windows、Mac、IntelliJ IDEA常见的配置和使用技巧

    2024-04-25 13:54:05       15 阅读
  3. 二 SpringMVC接收数据

    2024-04-25 13:54:05       12 阅读
  4. windows平台编译OpenCV以支持CUDA

    2024-04-25 13:54:05       52 阅读
  5. 智能合约语言(eDSL)—— 测试

    2024-04-25 13:54:05       27 阅读
  6. YOLOv3的算法原理是怎么样的

    2024-04-25 13:54:05       13 阅读
  7. jadx反编译apk

    2024-04-25 13:54:05       17 阅读
  8. Git和SVN有什么区别?

    2024-04-25 13:54:05       17 阅读
  9. idea一些常用的快捷键

    2024-04-25 13:54:05       12 阅读
  10. Ribbon饥饿加载

    2024-04-25 13:54:05       18 阅读
  11. C语言如何⽤指针为函数传递数组?

    2024-04-25 13:54:05       17 阅读