协调尺度：特征缩放在机器学习中的重要作用

特征缩放是对数据中自变量或特征范围进行归一化或标准化的过程。该技术的主要目标是确保没有一个特征因其规模而主导模型，从而使算法在训练过程中更快、更有效地收敛。对于依赖于距离计算的模型（例如 k 最近邻（KNN）和 k 均值聚类）或使用梯度下降优化方法（包括神经网络和支持向量机（SVM））的模型，这一点尤为重要。

四、特征缩放方法

有几种常见的功能缩放方法，每种方法都有其独特的应用和优点：

最小-最大缩放（归一化）：此方法调整数据的缩放比例，使其适合特定范围，通常为 0 到 1。它适用于假定数据处于有限间隔但对异常值敏感的算法。
标准化（Z 分数归一化）：与归一化不同，标准化不会将值绑定到特定范围，这使得它适用于不假设特定数据分布的算法。它将特征转换为均值为零，标准差为一，从而促进对数据规模敏感的算法更快地收敛。
最大 Abs 缩放：此技术按每个要素的最大绝对值缩放。这对于已经居中的数据或稀疏数据非常有用，其中零是一个有意义的值。
强大的扩展性：通过删除中位数并根据分位数范围缩放数据，鲁棒缩放可减轻异常值的影响。当数据集包含许多异常值或数据不服从正态分布时，它特别有利。

五、特征缩放的重要性

特征缩放通过确保特征对结果的贡献相等来增强机器学习算法的性能，从而防止由于数据的固有规模而产生的偏差。例如，在梯度下降算法中，特征缩放可以显著加快收敛速度，因为它确保向最小值迈出的步长在所有维度上都是成比例的。同样，在计算数据点之间距离的聚类算法和模型中，要素缩放可确保距离度量不会因要素比例而偏斜。

六、实际意义

在实践中，特征缩放方法的选择取决于所使用的算法和数据的具体特征。对于决策树或随机森林等算法，可能不需要特征缩放，因为这些模型对数据规模不敏感。然而，对于支持向量机、神经网络和基于距离的算法，特征缩放对于模型性能和准确性至关重要。

此外，异常值的存在会显着影响使用哪种缩放方法。例如，最小-最大缩放可能对异常值高度敏感，可能会将大部分数据压缩到一个小范围内。在这种情况下，可靠的扩展或标准化可能更合适。

七、代码

为了使用完整的 Python 代码示例来说明特征缩放，我们将创建一个合成数据集，应用不同的特征缩放技术，并可视化这些技术对数据集的影响。我们还将包含指标来评估缩放对简单机器学习模型的影响。

步骤 1：创建合成数据集

首先，我们将使用创建一个具有不同比例特征的合成数据集。sklearn.datasets.make_classification

步骤 2：应用特征缩放技术

我们将应用以下功能缩放技术：

最小-最大缩放
标准化（Z 分数归一化）
最大腹肌缩放
强大的扩展能力

步骤 3：可视化要素缩放的效果

在应用每种缩放技术之前和之后，我们将使用绘图来可视化数据集。

步骤 4：评估对机器学习模型的影响

作为一个简单的评估，我们将使用逻辑回归模型来查看特征缩放如何影响其性能。我们将数据集拆分为训练集和测试集，应用缩放，训练模型，然后使用准确性作为指标对其进行评估。

让我们开始对这个过程进行编码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, MaxAbsScaler, RobustScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Step 1: Create a synthetic dataset
X, y = make_classification(n_samples=1000, n_features=2, n_redundant=0, n_clusters_per_class=1, weights=[0.5], random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Function to apply scaling and train a logistic regression model
def apply_scaling_and_evaluate(scaler):
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # Train logistic regression model
    model = LogisticRegression(random_state=42)
    model.fit(X_train_scaled, y_train)
    
    # Predict and evaluate
    predictions = model.predict(X_test_scaled)
    accuracy = accuracy_score(y_test, predictions)
    
    # Plotting
    plt.scatter(X_train_scaled[:, 0], X_train_scaled[:, 1], c=y_train, cmap='viridis', alpha=0.5)
    plt.title(f"{scaler.__class__.__name__} - Accuracy: {accuracy:.2f}")
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.show()

# Original Data Plot
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap='viridis', alpha=0.5)
plt.title("Original Data")
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

# Apply and visualize different scaling techniques
scalers = [MinMaxScaler(), StandardScaler(), MaxAbsScaler(), RobustScaler()]
for scaler in scalers:
    apply_scaling_and_evaluate(scaler)

解释：

创建合成数据集：我们使用生成一个具有两个特征的数据集。然后，将数据集拆分为训练集和测试集。make_classification
应用缩放技术：对于每种缩放技术，我们创建一个缩放器对象，将其拟合到训练数据上，并转换训练集和测试集。
训练和评估模型：我们在缩放数据上训练逻辑回归模型，并通过计算测试集的准确性来评估其性能。
可视化：对于每种缩放技术，我们绘制缩放的特征以可视化数据分布的变化。

此代码全面概述了如何在 Python 中应用特征缩放、可视化其效果以及评估对简单机器学习模型的影响。

八、结论

特征缩放是机器学习算法预处理数据的基本步骤，可确保特征的缩放不会使模型产生偏差。通过了解并适当应用不同的特征缩放方法，数据科学家可以提高机器学习模型的性能、效率和准确性。因此，特征缩放不仅有助于算法的最佳功能，而且还强调了在机器学习和数据分析的更广泛背景下进行深思熟虑的数据预处理的重要性。

原文地址:https://blog.csdn.net/gongdiwudu/article/details/136123380 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1758402838351974400.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部