Applied Spatial Statistics(三)点模式分析 - 最近邻分析

点模式分析是一种用于识别数据集中的异常或异常模式的统计方法。在点模式分析中,最常用的一种分析方法是最近邻分析(Nearest Neighbor Analysis)。这种方法主要关注数据点之间的距离,通过比较数据点与其最近邻点的距离来识别异常值或异常模式。


  1. 距离度量:首先,需要定义一个距离度量,如欧几里得距离、曼哈顿距离或闵可夫斯基距离等,来衡量数据点之间的距离。

  2. 距离计算:计算每个数据点到其他所有点的距离,并找出每个点的最近邻点。

  3. 距离分布:统计所有数据点到其最近邻点的距离,并分析这些距离的分布。

  4. 异常值识别:如果某个数据点到其最近邻点的距离显著大于其他点的平均距离,那么这个数据点可能被认为是异常的。


  1. 异常检测:在许多领域,如金融欺诈检测、网络安全和医疗诊断中,最近邻分析被用来识别异常行为或异常事件。

  2. 聚类分析:最近邻分析也常用于聚类分析中,通过分析点之间的距离来确定数据点的相似性,从而将相似的数据点聚类在一起。

  3. 推荐系统:在推荐系统中,最近邻分析可以用来找到与用户兴趣相似的其他用户,从而提供个性化的推荐。

  4. 图像处理:在图像处理中,最近邻分析可以用于图像压缩、图像分割和特征提取等任务。


我们将使用一个名为“pointpats”的 python 包,它是 Python 空间分析库 (PySAL) 的子模块。

import pointpats
from pointpats import PoissonPointProcess, PoissonClusterPointProcess, Window, poly_from_bbox, PointPattern
import libpysal as ps
import matplotlib.pyplot as plt
import numpy as np


observed = np.array([[66.22, 32.54], [22.52, 22.39], [31.01, 81.21],
          [9.47, 31.02],  [30.78, 60.10], [75.21, 58.93],
          [79.26,  7.68], [8.23, 39.93],  [98.73, 77.17],
          [89.78, 42.53], [65.19, 92.08], [54.46, 8.48]])
在“pointpats”中,您可以非常轻松地计算最近邻距离。 下面的结果与我们在幻灯片上的结果相同。 第一个元素是最近邻索引数组。 请注意,在 python 中,索引从零开始,因此与幻灯片上的索引相比,索引偏移了 1。 第二个元素是每个事件与其最近事件之间距离的数组。

pp = PointPattern(observed)
(array([[ 9],
        [ 3],
        [ 4],
        [ 7],
        [ 2],
        [ 9],
        [ 3],
        [ 5],
        [ 5],
        [ 5],
        [ 6]]),
        [ 8.99587128],
        [ 8.99587128],


observed_ann = pp.knn()[1].mean()



ext_square = [(0,0), (0,100), (100,100), (100, 0)]
window_square = Window(ext_square)


# n is the number of points
# sample is number of random patterns we generate, we just do 1 pattern.
samples = PoissonPointProcess(window_square, n=12, samples=1)

#get the coordinates from the PoissonPointProcess function.
pp_pcp = samples.realizations[0]
为每个随机模式计算 ANND

pp = PointPattern(pp_pcp)
(array([[ 9],
        [ 9],
        [ 6],
        [ 9],
        [ 6],
        [ 5],
        [ 6],
        [ 3],
        [ 1],
        [ 3],
        [ 1]]),
        [ 9.11686077],
        [ 5.62917903],
        [ 9.11686077],
        [ 5.62917903],

接下来,还记得我们谈到的排列测试吗? 我们将生成随机模式,作为我们的零采样分布。 在这里,我们只是重复前面的步骤 1,000 次。

ann_list = []
for i in range(1000):
    samples = PoissonPointProcess(window_square, 12, 1)
    pp_pcp = samples.realizations[0]
    pp = PointPattern(pp_pcp)
    ann = pp.knn()[1].mean()

绘制 CSR 假设下 ANND 的抽样分布。

观察到ANND = 21.6,处于垂直线位置。

我们可以计算在 1,000 个随机模式中我们得到比观察到的 ANND 更极端的 ANND 值的次数。

p_sim = np.sum(ann_list >= observed_ann)/1000

39 次,因此我们可以根据排列测试得到 p 值为 0.039。 然后你就可以得出你的结论了。 较大的 ANND 表示规则/分散,而较小的 ANND 表示簇状模式。

因此,让我们对聚类模式重复此操作。 我们可以使用名为“PoissonClusterPointProcess”的函数来生成一些假的聚类模式。 您可以更改多个参数以允许集群的数量(“parents”)和集群的大小(“radius”)。

cluster_samples = PoissonClusterPointProcess(window_square, n=12, parents=4, radius=10, samples=1)
cluster_pp_pcp = cluster_samples.realizations[0]

(0.0, 100.0)


cluster_pp = PointPattern(cluster_pp_pcp)
<matplotlib.lines.Line2D at 0x292f3f350>


p_sim = np.sum(ann_list <= observed_ann)/1000

在这种情况下,我们实际上有一个非常小的 p 值,我们观察到的 ANND 太小,以至于没有比我们的模拟中更极端的情况。


