吴恩达《机器学习》11-3-11-5:类偏斜的误差度量、查准率和查全率之间的权衡、机器学习的数据

2023-12-06 16:04:01
开发
29

一、类偏斜的误差度量

误差度量的关键性

之前的课程中已经提到了误差分析和设定误差度量值的重要性。评估学习算法并衡量其表现需要使用一个实数，这就是误差度量值。然而，在某些情况下，特别是当处理偏斜类时，选择正确的误差度量值可能会对算法的性能产生微妙但重要的影响。

偏斜类的问题

偏斜类的情况发生在训练集中某一类实例数量非常多，而其他类的实例数量很少或没有的情况下。举例来说，如果希望用算法来预测肿瘤是否是恶性的，而在训练集中只有0.5%的实例是恶性肿瘤，就会面临偏斜类的问题。

查准率和查全率

为了解决偏斜类问题，我们引入了两个重要的概念：查准率（Precision）和查全率（Recall）。

查准率：表示在所有预测为正例的样本中，实际为正例的比例。计算方式为查准率=TP/(TP+FP)。在肿瘤预测中，查准率高表示在我们预测为恶性的病人中，实际上有恶性肿瘤的比例高。
查全率：表示在所有实际为正例的样本中，成功预测为正例的比例。计算方式为查全率=TP/(TP+FN)。在肿瘤预测中，查全率高表示在所有实际上有恶性肿瘤的病人中，成功预测有恶性肿瘤的比例高。

混淆矩阵

为了更清晰地理解查准率和查全率，引入了混淆矩阵。混淆矩阵以预测值和实际值的正负情况为基础，划分为True Positive（真正例）、True Negative（真负例）、False Positive（假正例）、False Negative（假负例）四个部分。

二、查准率和查全率之间的权衡

重温查准率和查全率

在之前的课程中，我们已经了解了查准率（Precision）和查全率（Recall）的概念。查准率表示在所有预测为正例的样本中，实际为正例的比例，而查全率表示在所有实际为正例的样本中，成功预测为正例的比例。

查准率（Precision）：Precision = TP/(TP+FP)，在所有我们预测有恶性肿瘤的病人中，实际上有恶性肿瘤的病人的百分比，越高越好。
查全率（Recall）：Recall = TP/(TP+FN)，在所有实际上有恶性肿瘤的病人中，成功预测有恶性肿瘤的病人的百分比，越高越好。

权衡查准率和查全率

假设我们的算法输出的结果在 0-1 之间，使用阀值 0.5 来预测真和假。我们可以通过调整阀值来平衡查准率和查全率。如果我们希望提高查准率，可以使用比 0.5 更大的阀值，如 0.7 或 0.9。反之，如果希望提高查全率，可以使用比 0.5 更小的阀值，如 0.3。

F1 值的引入

为了更有效地权衡查准率和查全率，引入了 F1 值（F1 Score）。F1 值是查准率和查全率的调和平均数，计算公式为：

F1 值的范围在 0 到 1 之间，取得最高值的阀值即为我们选择的阀值。通过计算 F1 值，我们可以在查准率和查全率之间找到一个平衡，选择一个适当的阀值来优化算法性能。

三、机器学习的数据

在这段视频中，我们探讨了机器学习系统设计中一个重要的方面，即训练数据的数量对算法性能的影响。在研究中，研究人员Michele Banko和Eric Brill进行了一项实验，通过使用不同大小的训练数据集来比较不同学习算法的性能。

他们发现，随着训练数据集的增大，大多数算法表现出相似的性能提升趋势。即使是一些算法可能被认为是“劣等”的，但通过提供更多的训练数据，它们的性能可能超越一些被认为是“优等”的算法。这引发了一个普遍的共识：“在机器学习中取得成功的关键不在于拥有最好的算法，而在于拥有最多的数据。”

这个结论的前提条件是：首先，特征值𝑥包含足够的信息，使得人类专家能够准确预测𝑦值。其次，有大量的训练数据，且训练的学习算法具有足够多的参数，例如逻辑回归、线性回归或神经网络等。

这样的研究结果表明，大量的训练数据可以弥补算法的一些不足，甚至在某些情况下，数据的重要性可能超过选择算法的重要性。因此，在实践中，获取更多的训练数据可能是提高机器学习算法性能的有效途径。

请注意，这个结论并不适用于所有情况，而是在特定条件下成立。如果特定问题中特征包含足够信息，而且有足够的训练数据，那么增加数据量可能是改善算法性能的一种方法。

参考资料：

[中英字幕]吴恩达机器学习系列课程

黄海广博士 - 吴恩达机器学习个人笔记

原文地址:https://blog.csdn.net/qq_46179411/article/details/134830963 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1732309907924979712.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部