【ML练习】决策树

一、决策树算法概述

在这里插入图片描述

二、代码实现

代码目标:我们希望通过鸢尾花数据,训练一个决策树模型,之后应用该模型,可以根据鸢尾花的四个特征去预测它的类别。

1. 分类树实现

import pandas as pd
import numpy as np

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"  
names = ['花萼-length', '花萼-width', '花瓣-length', '花瓣-width', 'class'] 

dataset = pd.read_csv(url, names=names)
dataset

输出:

在这里插入图片描述

X = dataset.iloc[ : ,[0,1,2,3]].values
Y = dataset.iloc[ : ,  4].values
from sklearn import tree
from sklearn.datasets import load_iris

clf = tree.DecisionTreeClassifier()  # sk-learn的决策树模型
clf = clf.fit(X, Y)                  # 用数据训练树模型构建()
r   = tree.export_text(clf)
print(r)

输出:

在这里插入图片描述

text_x = X[[0,1,50,51,100,101], :]
pred_target_prob = clf.predict_proba(text_x)        # 预测类别概率
pred_target = clf.predict(text_x)              # 预测类别
print("\n===模型======")
print(r)
print("\n===测试数据:=====")
print(text_x)
print("\n===预测所属类别概率:=====")
print(pred_target_prob)
print("\n===预测所属类别:======")
print(pred_target)

输出:
在这里插入图片描述

2. 回归树实现

import pandas as pd
import numpy as np

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"  
names = ['花萼-length', '花萼-width', '花瓣-length', '花瓣-width', 'class'] 

dataset = pd.read_csv(url, names=names)
dataset

输出:
在这里插入图片描述

X = dataset.iloc[ : ,[0,1,2]].values
Y = dataset.iloc[ : ,  3].values
from sklearn import tree
from sklearn.datasets import load_iris

clf = tree.DecisionTreeRegressor()         # sk-learn的决策树模型
clf = clf.fit(X, Y)        # 用数据训练树模型构建()
r   = tree.export_text(clf)
test_x = X[[0,1,50,51,100,101], :]
test_y = Y[[0,1,50,51,100,101]]
pred_target = clf.predict(test_x)  # 预测y

df = pd.DataFrame()
df["原y"] = test_y
df["预测y"] = pred_target
print("\n===模型======")
# print(r)
print("\n===预测结果======")
print(df)

输出:
在这里插入图片描述

三、总结

在使用决策树时,首先需确认分类及预测的对象,另外在处理缺失值时,也需注意。

相关推荐

  1. 决策(分类决策

    2024-07-20 11:54:01       27 阅读
  2. 决策详解

    2024-07-20 11:54:01       47 阅读
  3. 数据挖掘--决策

    2024-07-20 11:54:01       49 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-20 11:54:01       52 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-20 11:54:01       54 阅读
  3. 在Django里面运行非项目文件

    2024-07-20 11:54:01       45 阅读
  4. Python语言-面向对象

    2024-07-20 11:54:01       55 阅读

热门阅读

  1. YOLO 各版本对比

    2024-07-20 11:54:01       19 阅读
  2. 基于gunicorn+flask+docker模型 高并发部署

    2024-07-20 11:54:01       17 阅读
  3. 跟着GPT学设计模式之模板模式

    2024-07-20 11:54:01       18 阅读
  4. 动态美学:WebKit中CSS转换与动画的魔力

    2024-07-20 11:54:01       17 阅读
  5. 华为AI认证必刷题100道(上)

    2024-07-20 11:54:01       19 阅读
  6. 概率论中的卷积公式

    2024-07-20 11:54:01       14 阅读
  7. 数据结构:栈

    2024-07-20 11:54:01       15 阅读
  8. 数据质量8个衡量标准

    2024-07-20 11:54:01       15 阅读
  9. abc362(abcde)

    2024-07-20 11:54:01       16 阅读