MCM备赛笔记——PCA主成分分析法

Key Concept

主成分分析(PCA,Principal Component Analysis)是一种统计方法,它通过线性变换将多维数据变换到新的坐标系统中,使得这一数据的任何投影的第一大方差出现在第一个坐标(即第一个主成分)上,第二大方差出现在第二个坐标上,依次类推。

建模思路

  1. 数据准备与标准化

  2. 计算协方差矩阵

    • 计算标准化数据的协方差矩阵。协方差矩阵反映了数据各维度之间的相关性。因为我们读取的数据矩阵中,每行都表示一个国家,每列表示的是不同的特征。PCA要分析的是不同特征之间的相关性,所以我们要把这个矩阵转置之后再求协方差矩阵。
  3. 求解特征值和特征向量

    • 对协方差矩阵进行特征分解,求出其特征值和相应的特征向量。这里没有像之前层次分析法一样使用numpy的特征值分解方法,而是使用了scipy中的linalg来进行特征值计算
  4. 选择主成分

    • 将特征值从大到小排列
    • 计算特征向量的方差累积贡献率。如果前n个特征向量的方差贡献率达到了85%(或者其他界限),则可以选择使用这前n个特征向量作为我们的主成分
  5. 主成分分析

PCA还可以进一步用于聚类分析等操作,比如人脸识别这种.......

Key Concept Explanation PCA的核心思想是找到最能代表原始数据集的低维结构,通常用于数据预处理、数据压缩和特征提取。在许多实际应用中,数据集可能包含许多变量,而其中一些变量可能是相关的。PCA使我们能够识别出最重要的变量,即主成分,并且通过这些主成分来简化我们的数据集,同时保留数据集中的大部分信息。

PCA的优势在于它可以用较少的变量解释大部分数据的变异性,有助于去除噪声和冗余特征,同时可以在数据的可视化方面发挥重要作用。然而,PCA也有其局限性,比如它依赖于线性假设,对于非线性关系的数据可能无法有效地提取特征。此外,PCA对异常值非常敏感,可能会影响最终的降维结果。

相关推荐

  1. PCA 成分分析

    2024-01-21 21:54:01       14 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-21 21:54:01       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-21 21:54:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-21 21:54:01       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-21 21:54:01       20 阅读

热门阅读

  1. 数据结构---数组

    2024-01-21 21:54:01       35 阅读
  2. 配置免费的SSL

    2024-01-21 21:54:01       28 阅读
  3. spring boot 通过zxing生成二维码

    2024-01-21 21:54:01       32 阅读
  4. 【AI】深度学习在图像编码中的应用(1)

    2024-01-21 21:54:01       36 阅读
  5. ARP相关

    ARP相关

    2024-01-21 21:54:01      25 阅读
  6. 短剧剪辑思路

    2024-01-21 21:54:01       66 阅读
  7. nginx 搭建docker 似有hub仓库

    2024-01-21 21:54:01       24 阅读
  8. 归并排序与逆序对

    2024-01-21 21:54:01       24 阅读