【Python机器学习】主成分分析(PCA)

主成分分析(PCA)是一种旋转数据集的方法,旋转后的数特征在统计上不相关。在做完这种旋转之后,通常是根据新特征对解释数据的重要性来选择它的一个子集。

举例:

import mglearn.plots
import matplotlib.pyplot as plt


mglearn.plots.plot_pca_illustration()

plt.show()

第一张图(左上)显示的是原始数据点。用不同颜色区分。算法首先是方差最大的方向,将其标记成(component 1)。这是数据中包含信息最多的方向,换句话说,沿着这个方向的特征之间最为相关。然后,算法找到与第一个方向成直角、且包含最多信息的方向。在二维空间中,只有一个成直角的方向,但是在更高维的空间会存在(无穷)多的正交方向。

利用这一过程找到的方向被称为主成分,因为它们是数据方差的主要方向。一般来说,主成分的个数与原始特征相同。

第二张图(右上)显示的是同样数据,但将其旋转,使得第一主成分与x轴平行且第二主成分与y轴平行。在旋转之前,从数据中减去平均值,使得变换后的数据以零为中心。在PCA找到的选择中,两个坐标轴是不相关的。也就是说,对于这种数据表示,除了对角线,相关矩阵全部为零。

通过只保留一部分主成分来使用PCA进行降维。在这个例子中,我们可以仅保留第一个主成分,也就是左下图。这将数据从二维数据集降为一维数据集。但要注意的是,我们没有保留原始特征之一,而是找到了第一主成分的方向。

最后,反向旋转并将平均值重新加到数据中,就会得到右下图。这些数据点位于原始特征空间中,但我们仅保留了第一主成分中包含的信息。这种变换有时用于去除数据中的噪声影响,或者将主成分中保留的那部分信息可视化。

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-06-07 20:04:06       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-07 20:04:06       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-07 20:04:06       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-07 20:04:06       20 阅读

热门阅读

  1. 数学部分学习

    2024-06-07 20:04:06       9 阅读
  2. 书籍数字字符串转换为字母组合的种数(4)0607

    2024-06-07 20:04:06       10 阅读
  3. Qt程序打包

    2024-06-07 20:04:06       7 阅读
  4. 【leetcode--统计优美子数组】

    2024-06-07 20:04:06       9 阅读
  5. 高级数据结构学习

    2024-06-07 20:04:06       8 阅读
  6. reshape用法 python:深入探索多维数组的重塑技巧

    2024-06-07 20:04:06       7 阅读
  7. 一篇高效处理数据可视化Python库,看这篇就够了

    2024-06-07 20:04:06       8 阅读
  8. gpt4free软件的 g4f gui 网页速度非常慢的问题解决

    2024-06-07 20:04:06       4 阅读
  9. 深度解析 VPN 工作原理:保护隐私的关键

    2024-06-07 20:04:06       10 阅读
  10. Podman:Linux下的无守护进程容器引擎

    2024-06-07 20:04:06       9 阅读