如何衡量机器学习分类模型(python)

概述

  在NLP中我们经常需要使用机器学习的分类器。如何衡量一个分类器的好坏呢?最常见的指标包括准确率与召回率,准确度与F1-Score以及ROC与AUC。

测试数据

  我们以Scikit-Learn环境介绍常见的性能衡量指标。为了演示方便,我们创建测试数据,测试数据一共1000条记录,每条记录100个特征,内容随机生成。

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

x, y = datasets.make_classification(n_samples=1000, n_features=100,
						n_redundant=0, random_state = 1)
	#把数据集随机划分成训练集和测试集,其中测试集占40%。
train_X, test_X, train_Y, test_y = train_test_split(x, y)


#使用KNN算法进行训练和预测。

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(train_X, train_Y)
pred_Y = knn.predict(test_X)
print(pred_Y)

评价

混淆矩阵

  混淆矩阵,即Confusion Matrix,是将分类问题按照真实情况与判别情况两个维度进行归类的一个矩阵,在二分类问题中,可以用一个2乘以2的矩阵表示。如图1-1 所示,TP表示实际为真预测为真,

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-17 02:36:04       70 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-17 02:36:04       74 阅读
  3. 在Django里面运行非项目文件

    2024-07-17 02:36:04       62 阅读
  4. Python语言-面向对象

    2024-07-17 02:36:04       72 阅读

热门阅读

  1. Backend - Dockerfile 镜像档

    2024-07-17 02:36:04       25 阅读
  2. SQL进阶--条件分支

    2024-07-17 02:36:04       22 阅读
  3. workingset protection/detection on the anonymous LRU list

    2024-07-17 02:36:04       23 阅读
  4. WSGI 服务器教程:`write` 方法解析

    2024-07-17 02:36:04       24 阅读
  5. LeetCode 算法:组合总和 c++

    2024-07-17 02:36:04       24 阅读
  6. Linux 工作队列(Workqueue):概念与实现

    2024-07-17 02:36:04       26 阅读
  7. P1179 [NOIP2010 普及组] 数字统计【进制】

    2024-07-17 02:36:04       24 阅读
  8. PHP基础认知

    2024-07-17 02:36:04       23 阅读
  9. 探索Eureka的高级用法:在服务中实现分布式锁

    2024-07-17 02:36:04       22 阅读
  10. Rust编程-函数式编程

    2024-07-17 02:36:04       25 阅读
  11. 前端打包部署后源码安全问题总结

    2024-07-17 02:36:04       25 阅读