Lasso回归(Lasso Regression)

Lasso回归(Lasso Regression)的理论知识推导

Lasso回归(Least Absolute Shrinkage and Selection Operator)是一种线性回归的变种,通过对回归系数加上 L_{1}范数惩罚项来解决多重共线性问题,并具有变量选择功能。

 数学模型

线性回归模型的目标是最小化以下目标函数:

在Lasso回归中,目标函数变为:

目标函数推导

Lasso回归的目标函数可以拆分为两部分:误差项和惩罚项。通过添加惩罚项,可以避免过拟合,同时自动选择重要变量。

参数解读

  • \beta _{0}:截距,表示回归直线在y轴上的截距。
  • \beta _{j}:回归系数,表示每个自变量对因变量的影响。
  • λ:正则化参数,控制正则化强度。值越大,正则化效果越强,更多系数会被压缩为零。

实施步骤

  1. 数据准备

    • 收集数据。
    • 将数据分为训练集和测试集。
  2. 数据预处理

    • 处理缺失值。
    • 数据标准化或归一化。
  3. 模型训练

    • 使用训练数据拟合Lasso回归模型。
  4. 模型评估

    • 使用测试数据评估模型性能。
    • 计算均方误差(MSE)、R^{2}等指标。
  5. 模型优化

    • 调整正则化参数 λ。
    • 进行交叉验证选择最佳 λ。

未优化模型实例

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 生成示例数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1) * 0.5

# 数据分割为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 创建Lasso回归模型
lasso_reg = Lasso(alpha=1.0)
lasso_reg.fit(X_train_scaled, y_train)

# 进行预测
y_pred = lasso_reg.predict(X_test_scaled)

# 模型评估
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")
print(f"Intercept: {lasso_reg.intercept_}")
print(f"Coefficients: {lasso_reg.coef_}")

# 可视化结果
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.plot(X_test, y_pred, color='red', label='Predicted')
plt.xlabel("X")
plt.ylabel("y")
plt.title("Lasso Regression")
plt.legend()
plt.show()

可视化展示

结果解释
  • MSE:表示预测值与实际值之间的平均平方误差。值越小,模型性能越好。
  • R^{2}:决定系数,度量模型的拟合优度。值越接近1,模型解释力越强。
  • Intercept:截距,表示回归方程在y轴上的截距。
  • Coefficients:回归系数,表示自变量对因变量的影响。

优化后的模型实例

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LassoCV

# 创建带交叉验证的Lasso回归模型
lasso_cv = LassoCV(alphas=np.logspace(-6, 6, 13), cv=5)
lasso_cv.fit(X_train_scaled, y_train)

# 进行预测
y_pred_cv = lasso_cv.predict(X_test_scaled)

# 模型评估
mse_cv = mean_squared_error(y_test, y_pred_cv)
r2_cv = r2_score(y_test, y_pred_cv)

print(f"Best Alpha: {lasso_cv.alpha_}")
print(f"Mean Squared Error (CV): {mse_cv}")
print(f"R^2 Score (CV): {r2_cv}")
print(f"Intercept (CV): {lasso_cv.intercept_}")
print(f"Coefficients (CV): {lasso_cv.coef_}")

# 可视化结果
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.plot(X_test, y_pred_cv, color='red', label='Predicted')
plt.xlabel("X")
plt.ylabel("y")
plt.title("Lasso Regression with Cross-Validation")
plt.legend()
plt.show()

可视化展示

警告是由于 LassoLassoCV 期望 y 是一个一维数组(形状为 (n_samples,)),而你的 y 是一个二维列向量(形状为 (n_samples, 1))。解决这个问题的方法是将 y 转换为一维数组。

结果解释

  • Best Alpha: 通过交叉验证选择的最佳正则化参数。
  • Mean Squared Error (CV): 交叉验证后的均方误差。
  • R^{2} Score (CV): 交叉验证后的决定系数。
  • Intercept (CV): 交叉验证后的截距。
  • Coefficients (CV): 交叉验证后的回归系数。

相关推荐

  1. 拉索回归Lasso)算法原理讲解

    2024-07-17 06:46:01       28 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-17 06:46:01       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-17 06:46:01       72 阅读
  3. 在Django里面运行非项目文件

    2024-07-17 06:46:01       58 阅读
  4. Python语言-面向对象

    2024-07-17 06:46:01       69 阅读

热门阅读

  1. 【云原生网络CNI】容器网络接口CNI的使用和管理

    2024-07-17 06:46:01       27 阅读
  2. 索引是什么

    2024-07-17 06:46:01       22 阅读
  3. 前端路由实现

    2024-07-17 06:46:01       24 阅读
  4. 如何使用ASPICE?

    2024-07-17 06:46:01       25 阅读
  5. 论文调研_组件识别相关

    2024-07-17 06:46:01       32 阅读
  6. minimap2安装与使用(v 2.28)生物信息学工具26

    2024-07-17 06:46:01       24 阅读
  7. CSS 导航栏:设计、定制与优化

    2024-07-17 06:46:01       24 阅读
  8. 用python写一个tcp/ip协议的聊天软件

    2024-07-17 06:46:01       24 阅读
  9. STM32微控制器的高级控制算法(内附资料)

    2024-07-17 06:46:01       29 阅读
  10. Python编码规范详解

    2024-07-17 06:46:01       22 阅读