聚类方法K-means和DBSCAN，附matlab代码

引言

聚类的主要特点

聚类算法的主要步骤

聚类的应用场景

引言

聚类（Clustering）是数据挖掘和统计学中的一个重要概念，它是一种无监督学习的方法，用于将数据集中的样本或观测值分组为若干个类或簇（Cluster），使得同一簇内的样本之间相似度较高，而不同簇的样本之间相似度较低。与监督学习（如分类）不同，聚类不需要事先知道每个样本的类别标签，它完全基于数据本身的特征来进行分组。

聚类的主要特点

无监督学习：聚类算法不需要训练数据集中的标签信息，它们仅根据数据本身的特征来发现数据的内在结构。
发现隐藏模式：聚类可以帮助我们发现数据中的隐藏模式或群组，这些群组可能对应着数据的不同类别或子群体。
多样性和灵活性：存在多种聚类算法，每种算法都有其独特的优势和适用场景，如基于距离的聚类（如K-means）、基于密度的聚类（如DBSCAN）、基于层次的聚类（如AGNES和DIANA）等。

聚类算法的主要步骤

特征选择：选择用于聚类的数据特征。
相似性度量：定义如何计算样本之间的相似性或距离。
聚类算法选择：根据数据的特性和需求选择合适的聚类算法。
执行聚类：应用选定的聚类算法对数据进行分组。
评估聚类结果：评估聚类结果的质量，可能需要根据实际需求进行多次迭代调整。
结果解释和应用：解释聚类结果，并将其应用于实际问题解决中。

聚类的应用场景

聚类在多个领域都有广泛的应用，包括但不限于：

市场细分：将消费者根据购买行为、偏好等特征进行分组，以制定更精准的营销策略。
生物信息学：对基因表达数据进行聚类，以发现具有相似表达模式的基因群组。
图像处理：对图像中的像素或特征进行聚类，以实现图像分割、目标检测等任务。
社交网络分析：对用户或群组进行聚类，以发现社交网络中的社区结构或用户行为模式。
文本挖掘：对文档或文本数据进行聚类，以发现主题或信息类别。

聚类算法的局限性

尽管聚类具有广泛的应用，但它也存在一些局限性：

聚类结果的不确定性：由于聚类是无监督学习，聚类结果可能受到算法选择、参数设置等多种因素的影响，导致结果具有一定的不确定性。
对数据质量的依赖：聚类效果很大程度上依赖于输入数据的质量，如数据的完整性、准确性等。
难以解释性：在某些情况下，聚类结果可能难以直观解释或理解，特别是对于高维数据或复杂数据集。

总之，聚类是一种强大的数据分析工具，它可以帮助我们发现数据中的隐藏模式和群组结构，为后续的决策分析提供有力支持。然而，在实际应用中，我们也需要充分考虑其局限性和挑战，以选择合适的聚类方法和策略。

聚类方法

常用的聚类方法多种多样，每种方法都有其独特的优势和适用场景。以下是一些常用的聚类方法及其详细介绍：

1. K-means聚类算法

概述：
K-means聚类算法是一种基于划分的聚类方法，由James MacQueen在1967年提出。该算法将数据分为K个簇，通过迭代的方式优化簇内数据点的平均距离，使得同一簇内的数据点尽可能相似，而不同簇间的数据点尽可能不同。

步骤：

随机选择K个数据点作为初始的聚类中心。
计算每个数据点与各个聚类中心之间的距离，将数据点分配到最近的聚类中心所在的簇中。
重新计算每个簇的聚类中心（通常是簇内数据点的均值）。
重复步骤2和3，直到聚类中心不再发生变化或达到其他终止条件（如迭代次数限制、误差平方和局部最小等）。

优点：

实现简单，收敛速度快。
聚类效果通常较好，特别是当簇的形状接近球形时。

缺点：

需要事先指定聚类数目K。
对初始聚类中心的选择敏感，可能导致不同的聚类结果。
对噪声和异常值敏感。

clc;  
clear;  
  
% 假设data已经被加载，并且是一个二维数组（N x M），其中N是样本数，M是特征数  


% 聚类中心的数量  
k = 3;  
  
% 显示原始数据的一部分（可选）  
figure;  
subplot(1,2,1);  
plot(data(:,1), data(:,2), 'o'); % 假设我们有两个特征来可视化  
xlabel('Feature 1');  
ylabel('Feature 2');  
title('Original Data Points');  
grid on;  
  
% 初始化聚类中心（随机选择）  
indices = randperm(size(data, 1), k);  
CC = data(indices, :);  
  
% 初始化距离矩阵和聚类分配矩阵  
D = zeros(size(data, 1), k);  
C = cell(1, k);  
for i = 1:k  
    C{i} = [];  
end  
  
% 迭代过程  
while true  
    % 计算每个点到每个聚类中心的距离  
    for i = 1:size(data, 1)  
        for j = 1:k  
            D(i, j) = sqrt(sum((data(i, :) - CC(j, :)) .^ 2, 2)); % 计算欧氏距离  
        end  
        [~, minIndex] = min(D(i, :)); % 找到最近的聚类中心索引  
        % 更新聚类分配  
        if ~isempty(C{minIndex})  
            C{minIndex} = [C{minIndex}, i];  
        else  
            C{minIndex} = i;  
        end  
    end  
  
    % 重新计算聚类中心  
    newCC = zeros(k, size(data, 2));  
    for j = 1:k  
        if ~isempty(C{j})  
            newCC(j, :) = mean(data(C{j}, :), 1); % 计算新的聚类中心  
        end  
    end  
  
    % 检查聚类中心是否收敛  
    if all(newCC == CC, 'all')  
        break;  
    end  
  
    CC = newCC; % 更新聚类中心  
end  
  
% 绘制聚类结果  
figure;  
subplot(1,2,2);  
colors = ['r', 'g', 'b'];  
for j = 1:k  
    if ~isempty(C{j})  
        plot(data(C{j}, 1), data(C{j}, 2), '.', 'Color', colors(j));  
        hold on;  
        plot(newCC(j, 1), newCC(j, 2), 'kx', 'MarkerSize', 15, 'LineWidth', 3, 'Color', colors(j));  
    end  
end  
xlabel('Feature 1');  
ylabel('Feature 2');  
title('K-means Clustering Results');  
grid on;  
legend(arrayfun(@(j) sprintf('Cluster %d', j), 1:k, 'UniformOutput', false));

2. DBSCAN聚类算法

概述：
DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的聚类算法。该算法将簇定义为密度相连的点的最大集合，能够发现任意形状的簇，并处理噪声点。

核心概念：

ε邻域：给定对象半径为ε内的区域称为该对象的ε邻域。
核心对象：如果给定对象ε邻域内的样本点数大于等于MinPts（最小点数），则称该对象为核心对象。
密度可达和密度相连：基于核心对象和ε邻域的概念，定义了密度可达和密度相连的关系，用于描述簇内数据点之间的连接性。

步骤：

从数据集中随机选择一个未处理的数据点p。
如果p是核心对象，则找出所有从p密度可达的数据点，形成一个簇。
递归地对簇内的每个未处理的数据点执行步骤2，直到簇内的所有点都被处理。
重复步骤1-3，直到数据集中的所有点都被处理完毕。

优点：

不需要事先指定聚类数目。
能够发现任意形状的簇。
对噪声和异常值具有鲁棒性。

缺点：

对参数ε和MinPts的选择敏感。
当数据集的密度差异很大时，可能难以选择合适的参数。

function [IDX, isnoise]=DBSCAN(X,epsilon,MinPts)    % DBSCAN聚类函数
 
    C=0;                       % 统计簇类个数，初始化为0
    
    n=size(X,1);               % 把矩阵X的行数数赋值给n，即一共有n个点
    IDX=zeros(n,1);            % 定义一个n行1列的矩阵
    
    D=pdist2(X,X);             % 计算(X,X)的行的距离
    
    visited=false(n,1);        % 创建一维的标记数组，全部初始化为false，代表还未被访问
    isnoise=false(n,1);        % 创建一维的异常点数组，全部初始化为false，代表该点不是异常点
    
    for i=1:n                  % 遍历1~n个所有的点
        if ~visited(i)         % 未被访问，则执行下列代码
            visited(i)=true;   % 标记为true，已经访问
            
            Neighbors=RegionQuery(i);     % 查询周围点中距离小于等于epsilon的个数
            if numel(Neighbors)<MinPts    % 如果小于MinPts
                % X(i,:) is NOISE        
                isnoise(i)=true;          % 该点是异常点
            else              % 如果大于MinPts,且距离大于epsilon
                C=C+1;        % 该点又是新的簇类中心点,簇类个数+1
                ExpandCluster(i,Neighbors,C);    % 如果是新的簇类中心，执行下面的函数
            end
            
        end
    
    end                    % 循环完n个点，跳出循环
    
    function ExpandCluster(i,Neighbors,C)    % 判断该点周围的点是否直接密度可达
        IDX(i)=C;                            % 将第i个C簇类记录到IDX(i)中
        
        k = 1;                             
        while true                           % 一直循环
            j = Neighbors(k);                % 找到距离小于epsilon的第一个直接密度可达点
            
            if ~visited(j)                   % 如果没有被访问
                visited(j)=true;             % 标记为已访问
                Neighbors2=RegionQuery(j);   % 查询周围点中距离小于epsilon的个数
                if numel(Neighbors2)>=MinPts % 如果周围点的个数大于等于Minpts，代表该点直接密度可达
                    Neighbors=[Neighbors Neighbors2];   %#ok  % 将该点包含着同一个簇类当中
                end
            end                              % 退出循环
            if IDX(j)==0                     % 如果还没形成任何簇类
                IDX(j)=C;                    % 将第j个簇类记录到IDX(j)中
            end                              % 退出循坏
            
            k = k + 1;                       % k+1,继续遍历下一个直接密度可达的点
            if k > numel(Neighbors)          % 如果已经遍历完所有直接密度可达的点，则退出循环
                break;
            end
        end
    end                                      % 退出循环
    
    function Neighbors=RegionQuery(i)        % 该函数用来查询周围点中距离小于等于epsilon的个数
        Neighbors=find(D(i,:)<=epsilon);
    end