吴恩达《机器学习》11-3-11-5:类偏斜的误差度量、查准率和查全率之间的权衡、机器学习的数据

一、类偏斜的误差度量

误差度量的关键性

之前的课程中已经提到了误差分析和设定误差度量值的重要性。评估学习算法并衡量其表现需要使用一个实数,这就是误差度量值。然而,在某些情况下,特别是当处理偏斜类时,选择正确的误差度量值可能会对算法的性能产生微妙但重要的影响。

偏斜类的问题

偏斜类的情况发生在训练集中某一类实例数量非常多,而其他类的实例数量很少或没有的情况下。举例来说,如果希望用算法来预测肿瘤是否是恶性的,而在训练集中只有0.5%的实例是恶性肿瘤,就会面临偏斜类的问题。

查准率和查全率

为了解决偏斜类问题,我们引入了两个重要的概念:查准率(Precision)和查全率(Recall)。

  • 查准率:表示在所有预测为正例的样本中,实际为正例的比例。计算方式为查准率=TP/(TP+FP)。在肿瘤预测中,查准率高表示在我们预测为恶性的病人中,实际上有恶性肿瘤的比例高。

  • 查全率:表示在所有实际为正例的样本中,成功预测为正例的比例。计算方式为查全率=TP/(TP+FN)。在肿瘤预测中,查全率高表示在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的比例高。

混淆矩阵

为了更清晰地理解查准率和查全率,引入了混淆矩阵。混淆矩阵以预测值和实际值的正负情况为基础,划分为True Positive(真正例)、True Negative(真负例)、False Positive(假正例)、False Negative(假负例)四个部分。

二、查准率和查全率之间的权衡

重温查准率和查全率

在之前的课程中,我们已经了解了查准率(Precision)和查全率(Recall)的概念。查准率表示在所有预测为正例的样本中,实际为正例的比例,而查全率表示在所有实际为正例的样本中,成功预测为正例的比例。

  • 查准率(Precision):Precision = TP/(TP+FP),在所有我们预测有恶性肿瘤的病人中,实际上有恶性肿瘤的病人的百分比,越高越好。

  • 查全率(Recall):Recall = TP/(TP+FN),在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越好。

权衡查准率和查全率

假设我们的算法输出的结果在 0-1 之间,使用阀值 0.5 来预测真和假。我们可以通过调整阀值来平衡查准率和查全率。如果我们希望提高查准率,可以使用比 0.5 更大的阀值,如 0.7 或 0.9。反之,如果希望提高查全率,可以使用比 0.5 更小的阀值,如 0.3。

F1 值的引入

为了更有效地权衡查准率和查全率,引入了 F1 值(F1 Score)。F1 值是查准率和查全率的调和平均数,计算公式为:

F1 值的范围在 0 到 1 之间,取得最高值的阀值即为我们选择的阀值。通过计算 F1 值,我们可以在查准率和查全率之间找到一个平衡,选择一个适当的阀值来优化算法性能。

三、机器学习的数据

在这段视频中,我们探讨了机器学习系统设计中一个重要的方面,即训练数据的数量对算法性能的影响。在研究中,研究人员Michele Banko和Eric Brill进行了一项实验,通过使用不同大小的训练数据集来比较不同学习算法的性能。

他们发现,随着训练数据集的增大,大多数算法表现出相似的性能提升趋势。即使是一些算法可能被认为是“劣等”的,但通过提供更多的训练数据,它们的性能可能超越一些被认为是“优等”的算法。这引发了一个普遍的共识:“在机器学习中取得成功的关键不在于拥有最好的算法,而在于拥有最多的数据。”

这个结论的前提条件是:首先,特征值𝑥包含足够的信息,使得人类专家能够准确预测𝑦值。其次,有大量的训练数据,且训练的学习算法具有足够多的参数,例如逻辑回归、线性回归或神经网络等。

这样的研究结果表明,大量的训练数据可以弥补算法的一些不足,甚至在某些情况下,数据的重要性可能超过选择算法的重要性。因此,在实践中,获取更多的训练数据可能是提高机器学习算法性能的有效途径。

请注意,这个结论并不适用于所有情况,而是在特定条件下成立。如果特定问题中特征包含足够信息,而且有足够的训练数据,那么增加数据量可能是改善算法性能的一种方法。

参考资料

[中英字幕]吴恩达机器学习系列课程

黄海广博士 - 吴恩达机器学习个人笔记

最近更新

  1. TCP协议是安全的吗?

    2023-12-06 16:04:01       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-06 16:04:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-06 16:04:01       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-06 16:04:01       20 阅读

热门阅读

  1. 基于Hadoop的异构网络协同过滤推荐算法设计

    2023-12-06 16:04:01       29 阅读
  2. 可以使用京东商品详情 API 获取哪些商品信息?

    2023-12-06 16:04:01       42 阅读
  3. Gson与FastJson详解

    2023-12-06 16:04:01       33 阅读
  4. (C++20) constinit常量初始化

    2023-12-06 16:04:01       41 阅读
  5. P5706 【深基2.例8】再分肥宅水

    2023-12-06 16:04:01       44 阅读
  6. AIOps、微服务和云平台

    2023-12-06 16:04:01       36 阅读
  7. 做题笔记:SQL Sever 方式做牛客SQL的题目--VQ29

    2023-12-06 16:04:01       34 阅读
  8. 蓝桥杯官网练习题(平均)

    2023-12-06 16:04:01       40 阅读
  9. vscode配置代码片段

    2023-12-06 16:04:01       35 阅读
  10. rocketmq 集群环境部署及与spring cloud 集成

    2023-12-06 16:04:01       30 阅读
  11. RepidJson将内容写入文件简单代码示例

    2023-12-06 16:04:01       35 阅读
  12. 深度学习中的Transformer机制

    2023-12-06 16:04:01       37 阅读
  13. 封装请求头内容格式

    2023-12-06 16:04:01       37 阅读
  14. Flink-时间窗口

    2023-12-06 16:04:01       49 阅读