算法与数据结构--决策树算法

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

🍍加载数据集

iris = load_iris()
X = iris.data
y = iris.target

🍍划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

🍍构建决策树模型

clf = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=42)
clf.fit(X_train, y_train)

🍍预测

y_pred = clf.predict(X_test)

🍍评估模型

accuracy = accuracy_score(y_test, y_pred)
print(f'模型准确率: {accuracy:.2f}')

🍍可视化决策树

from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure(figsize=(12,8))
plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()

以上代码展示了如何使用决策树对Iris数据集进行分类，包括数据加载、模型训练、预测和评估，以及决策树的可视化。通过这种方式，我们可以直观地理解决策树的决策过程和模型性能。

🍈案例分析2

下面是一个更复杂的案例，实现了在一个金融数据集上的决策树分类模型，并进行了模型的性能评估和剪枝处理。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, classification_report
import matplotlib.pyplot as plt

# 加载数据集
data = pd.read_csv('financial_data.csv')  # 假设数据集名为financial_data.csv
X = data.drop('target', axis=1)
y = data['target']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 构建决策树模型
clf = DecisionTreeClassifier(criterion='gini', max_depth=5, random_state=42)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)
print(f'模型准确率: {accuracy:.2f}')
print('分类报告:')
print(report)

# 可视化决策树
plt.figure(figsize=(20,12))
plot_tree(clf, filled=True, feature_names=X.columns, class_names=['Class 0', 'Class 1'])
plt.show()

# 剪枝处理
path = clf.cost_complexity_pruning_path(X_train, y_train)
ccp_alphas = path.ccp_alphas

clfs = []
for ccp_alpha in ccp_alphas:
    clf = DecisionTreeClassifier(random_state=42, ccp_alpha=ccp_alpha)
    clf.fit(X_train, y_train)
    clfs.append(clf)

# 评估剪枝后的模型
train_scores = [accuracy_score(y_train, clf.predict(X_train)) for clf in clfs]
test_scores = [accuracy_score(y_test, clf.predict(X_test)) for clf in clfs]

plt.figure(figsize=(10,6))
plt.plot(ccp_alphas, train_scores, marker='o', label='Train', drawstyle="steps-post")
plt.plot(ccp_alphas, test_scores, marker='o', label='Test', drawstyle="steps-post")
plt.xlabel('Effective Alpha')
plt.ylabel('Accuracy')
plt.legend()
plt.title('Accuracy vs Alpha for Training and Testing Sets')
plt.show()

🍍详细解释

数据加载与预处理：加载金融数据集，并进行特征和目标变量的分离。

数据集划分：将数据集划分为训练集和测试集。

模型构建与训练：使用DecisionTreeClassifier构建决策树模型，并进行训练。

预测与评估：对测试集进行预测，并评估模型的准确率和分类报告。

模型可视化：可视化决策树，展示树的结构。

剪枝处理：通过计算成本复杂度剪枝路径，评估不同剪枝强度下模型的性能，并绘制准确率随剪枝参数变化的图。

🍉总结

总之，决策树算法在数据科学和机器学习中具有重要地位，理解其原理和实现方法对解决实际问题具有重要意义。

希望这些能对刚学习算法的同学们提供些帮助哦！！！

原文地址:https://blog.csdn.net/2302_76516899/article/details/139727391 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1802500410695618560.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部