机器学习:KNN算法实现对鸾尾花的分类

使用knn算法对鸢尾花数据进行分类,分类过程如下:

(1)将鸾尾花数据分为训练集和测试集,用来读取数据。
(2)处理训练集数据,将数据重拍,变量与标签分离。
(3)标准化语法(归一化:0~1)
(4)使用sklearn库中的KNN模块训练,再使用测试集数据进行测试。
(5)预测结果和概率。

1.训练集和测试集

首先需要引入pandas库

import pandas as pd 

接着设置训练集和测试集并插入数据

train_data:训练集
test_data:测试集
"""# numpy:数组形式来读取数据,pytorch:numpy。pandas:已表格的形式来读取数据,
train_data = pd.read_excel("鸢尾花训练数据.xlsx")
test_data = pd.read_excel("鸢尾花测试数据.xlsx")

2.处理训练集数据,将数据重拍,变量与标签分离

train_X = train_data[['萼片长(cm)', '萼片宽(cm)', '花瓣长(cm)', '花瓣宽(cm)']]
train_y = train_data['类型_num']

3.标准化语法(归一化:0~1)

from sklearn.preprocessing import scale

对输入的数据进行减去均值并除以标准差的操作,从而将数据转换为均值为0、标准差为1的分布。这个操作可以使得不同特征之间的尺度一致,避免因为某些特征的尺度过大或者过小而影响模型的训练效果。

4.使用sklearn库中的KNN模块训练,再使用测试集数据进行测试


from sklearn.neighbors import KNeighborsClassifier
#【1~10】
knn = KNeighborsClassifier(n_neighbors=2)   #
knn.fit(data, train_y)#到这里训练就已经结束。

score= knn.score(data, train_y)#最总的分。

train_predicted = knn.predict(data)




这里的k值是对准确率有影响的,我们可以带入不同的k

knn = KNeighborsClassifier(n_neighbors=1)   
knn = KNeighborsClassifier(n_neighbors=2)   
knn = KNeighborsClassifier(n_neighbors=3)   
knn = KNeighborsClassifier(n_neighbors=4)   
knn = KNeighborsClassifier(n_neighbors=5)   
knn = KNeighborsClassifier(n_neighbors=6)  
knn = KNeighborsClassifier(n_neighbors=7)   
knn = KNeighborsClassifier(n_neighbors=8)   
knn = KNeighborsClassifier(n_neighbors=9)   
knn = KNeighborsClassifier(n_neighbors=10)   

使用测试集数据进行测试

test_X = test_data[['萼片长(cm)', '萼片宽(cm)', '花瓣长(cm)', '花瓣宽(cm)']]
test_y = test_data[['类型_num']]

5.预测结果和概率

#预测结果
test_predicted = knn.predict(data_test)
#预测概率
test_predicted_pr = knn.predict_proba(data_test)

算法总结:

优点:
1.简单,易于实现,易于理解,无需练习;
2.适合对稀有事件进行分类;
3.对异常值不敏感。
缺点:
1.样本容量比较大时,计算时间很长;
2.不均衡样本效果较差。

相关推荐

  1. 机器学习KNN算法实现尾花分类

    2023-12-15 17:48:02       43 阅读
  2. python代码实现KNN尾花分类

    2023-12-15 17:48:02       13 阅读
  3. 机器学习入门实践-鸢尾花分类

    2023-12-15 17:48:02       16 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-15 17:48:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-15 17:48:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-15 17:48:02       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-15 17:48:02       20 阅读

热门阅读

  1. 4-Docker命令之docker search

    2023-12-15 17:48:02       31 阅读
  2. 《代码随想录》--二叉树

    2023-12-15 17:48:02       39 阅读
  3. [Verilog]用Verilog实现串并转换/并串转换

    2023-12-15 17:48:02       35 阅读
  4. MacOS上配置Jenkins开机自启动

    2023-12-15 17:48:02       38 阅读
  5. 截痕法分析曲面形状@旋转曲面@双曲面@锥面

    2023-12-15 17:48:02       33 阅读
  6. Python 素数回文数的个数(题目来源dotcpp: 2950)

    2023-12-15 17:48:02       38 阅读
  7. Mysql社区版日志审计插件

    2023-12-15 17:48:02       38 阅读