机器学习距离度量方法

1. 机器学习中为什么要度量距离?

机器学习算法中,经常需要 判断两个样本之间是否相似 ,比如KNN,K-means,推荐算法中的协同过滤等等,常用的套路是 将相似的判断转换成距离的计算 ,距离近的样本相似程度高,距离远的相似程度低。所以度量距离是很多算法中的关键步骤。

KNN算法中要求数据的所有特征都用数值表示。若在数据特征中存在非数值类型,必须采用手段将其进行量化为数值。

  • 比如样本特征中包含有颜色(红、绿、蓝)一项,颜色之间没有距离可言,可通过将颜色转化为 灰度值来实现距离计算

  • 每个特征都用数值表示,样本之间就可以计算出彼此的距离来

接下来介绍几种距离度量方法

2. 欧式距离

3. 曼哈顿距离

 

4. 切比雪夫距离

 

国际象棋棋盘上二个位置间的切比雪夫距离是指王要从一个位置移至另一个位置需要走的步数。(王可以往斜前或斜后方向移动一格)

 

5. 闵式距离

闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。

 

其中p是一个变参数:

  • 当 p=1 时,就是曼哈顿距离;

  • 当 p=2 时,就是欧氏距离;

  • 当 p→∞ 时,就是切比雪夫距离。

根据 p 的不同,闵氏距离可以表示某一类/种的距离。

6. 小结

  1. 欧式距离、曼哈顿距离、切比雪夫距离是最常用的距离

  2. 闵式距离是一组距离的度量,当 p = 1 时代表曼哈顿距离,当 p = 2 时代表欧式距离,当 p = ∞ 时代表切比雪夫距离

 

相关推荐

  1. Python 机器学习 K-近邻算法 常用距离度量方法

    2023-12-30 02:50:02       36 阅读
  2. 机器学习分析地图数据位置距离

    2023-12-30 02:50:02       23 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-30 02:50:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-30 02:50:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-30 02:50:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-30 02:50:02       18 阅读

热门阅读

  1. resnet18

    resnet18

    2023-12-30 02:50:02      38 阅读
  2. 【第30例】IPD产品开发概念阶段详解

    2023-12-30 02:50:02       42 阅读
  3. 工科数学基础系列(1)——矩阵微分

    2023-12-30 02:50:02       36 阅读
  4. LeetCode第63题 - 不同路径 II

    2023-12-30 02:50:02       42 阅读
  5. LeetCode1822. Sign of the Product of an Array

    2023-12-30 02:50:02       30 阅读
  6. P1308 [NOIP2011 普及组] 统计单词数----有意思

    2023-12-30 02:50:02       29 阅读
  7. YCSB 测试表预分区

    2023-12-30 02:50:02       36 阅读
  8. Netty学习

    2023-12-30 02:50:02       41 阅读