数据分析------统计学知识点(四)

数据算法基础

1.准确率与置信区间

当评估一个算法的性能时,通常首先考虑准确率(Accuracy),这是一个衡量模型整体预测准确性的指标。

(1)准确率(Accuracy)

表示正确预测的比例,公式:准确率=预测正确的样本数量/预测总的样本数量

准确率并不能总能有效地反映模型的性能,尤其在类别不平衡的数据集中

为更准确评估模型在特定类别上的表现,使用精确率(Precision)和召回率(Recall)

  • 混淆矩阵——是一个特定于二分类问题的表格,用于可视化模型性能
预测是类别A 预测是类别B

实际是类别A

TP-True Positive FN-False Negative
实际是类别B FP-False Positive TN-True Negative

真正例(TP):模型正确地预测正类(类别A)

假负例(FN):模型错误地将正类(类别A)预测为负类(类别B)

假正例(FP):模型错误地将负类(类别B)预测为正类(类别A)

真负例(TN):模型正确地预测负类(类别B)

(2)精确率(Precision)

精确率是衡量在所有模型预测为正类的样本中,实际为正类的样本的比例

精确率=真正例(TP)/(假正例FP+真正例TP)

其中真正例TP表示正确预测为正类的样本数,假正例FP表示错误预测为正类的负类样本数。

精确率对于那些错误预测正类代价较高的任务尤为重要

(3)召回率(Recall)

尽管提高指令以消除所有假正例可以将精确率提升至100%,这看似能极大提升精度,然而这样做可能会大幅度降低模型的召回率。因为模型会变得过于谨慎。——>为避免这种过度保守的预测导致正类样本的遗漏,考虑召回率这一指标。

召回率衡量的是模型正确预测的正类样本(TP)占所有实际正类样本的比例,反映了模型对正类的检出能力。

召回率=真正例(TP)/(假负例FN+真正例TP)

其中假负例FN表示实际为正类但被模型预测为负类的样本数

召回率对于那些漏检正类代价较高的任务尤为重要

召回率衡量了模型的查全能力,即所有正类样本中,模型能正确识别出多少

目标:防止模型过于保守,以至于错过真正的正类样本。

精确率和召回率通常一起使用以全面评估模型性能,二者相互依存,往往需要找一个平衡点

一个单一的高指标并不足以定义一个好的模型,而是需要同时考虑减少假正例和假负例的能力确定模型的优劣。

(4)置信区间:预测的可信程度

精确率、召回率确实是评估算法性能的重要指标,但在实际应用中,它们并不足以全面评价算法的优劣。现实生活问题往往涉及到连续数值的预测,而不仅仅是分类问题。

置信区间是一种统计参数估计方法,它利用一个区间来预测参数的可能值,这个区间的可信度即为置信度。

一般来说,置信度和置信区间的宽度是通向变化,当置信度很高时,置信区间通常较宽;置信度较宽也意味着置信度较高。

相关推荐

  1. 数据分析------统计学知识

    2024-06-12 01:44:01       12 阅读
  2. 数据分析------统计学知识(三)

    2024-06-12 01:44:01       6 阅读
  3. 数据分析------统计学知识(一)

    2024-06-12 01:44:01       9 阅读
  4. 数据分析------统计学知识(二)

    2024-06-12 01:44:01       7 阅读
  5. 数据分析------统计学知识(五)

    2024-06-12 01:44:01       7 阅读
  6. 数据分析------知识(六)

    2024-06-12 01:44:01       5 阅读
  7. 数据分析业务知识:口径

    2024-06-12 01:44:01       12 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-12 01:44:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-12 01:44:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-12 01:44:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-12 01:44:01       18 阅读

热门阅读

  1. C++构建MVC学生信息管理系统

    2024-06-12 01:44:01       10 阅读
  2. GIT生成SSH公钥图文教程

    2024-06-12 01:44:01       14 阅读
  3. SSID简介

    2024-06-12 01:44:01       9 阅读
  4. Web前端开发缺点:深入剖析与反思

    2024-06-12 01:44:01       9 阅读
  5. vue调用百度api时跨域问题的解决方案

    2024-06-12 01:44:01       8 阅读
  6. Django自定义CSS

    2024-06-12 01:44:01       6 阅读
  7. python连接mysql数据库、FastAPI、mysql-connector-python

    2024-06-12 01:44:01       7 阅读
  8. 【16】编写shell-批量导入mysql的sql语句

    2024-06-12 01:44:01       10 阅读
  9. 2 程序的灵魂—算法-2.2 简单算法举例-【例 2.1】

    2024-06-12 01:44:01       9 阅读
  10. 大数据—数据分析概论

    2024-06-12 01:44:01       10 阅读