【SCAU数据挖掘】数据挖掘期末总复习题库判断题及解析

1.离群点可以是合法的数据对象或者值。( ✓)

解析：离群点（Outliers）通常是与数据集中其他数据显著不同的数据点，但它们可以是合法的数据值。这些值可能是由于测量误差、数据录入错误、数据分布的自然属性等原因产生的。

3.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(x )

解析：关联规则挖掘（Association Rule Mining）的目标是发现数据项之间有趣的关联或关系。这通常涉及两个关键指标：支持度（Support）和置信度（Confidence）。支持度衡量项集在数据集中出现的频率，而置信度衡量如果购买了项集X，那么也购买项集Y的可能性。仅仅满足最小支持度是不够的，通常还需要满足一定的置信度阈值。

4.K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动确定。(x )

解析：K均值（K-means）是一种基于划分的聚类算法，但它不是基于密度的。在K均值中，簇的个数（即K的值）是用户预先设定的，而不是由算法自动确定的。算法会迭代地将数据点分配到最近的簇中心，并更新簇中心的位置，直到达到某种收敛条件。

5.如果一个对象不属于任何簇，那么该对象是基于聚类的离群点。(✓ )

解析：在聚类分析中，如果一个对象与任何簇的相似性都很低，或者它与所有簇的距离都大于某个阈值，那么该对象通常被视为离群点。这些离群点可能是由于噪声、异常值或数据分布的自然属性产生的。

6.数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好地完成描述数据、预测数据等任务。( ✓)

解析：数据挖掘确实旨在从大量数据中识别出隐藏的、有效的、新颖的、并可能具有实际用途的模式或规则，以便更好地描述数据、预测未来趋势或做出决策。

7.数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。(✓ )

解析：数据挖掘的焦点是在现有数据集上应用各种技术来发现模式和关系，而不是如何收集数据。虽然数据质量对数据挖掘的结果至关重要，但数据采集策略本身不是数据挖掘的直接目标。

8.用于分类的离散化方法之间的根本区别在于是否使用类信息。(✓ )

解析：在分类任务中，离散化（也称为数据分箱或量化）是将连续属性转换为离散值的过程。不同的离散化方法可能会基于不同的标准或算法来执行此操作，其中一个关键的区别在于是否利用已知的类信息来指导离散化过程。

9.特征提取技术并不依赖于特定的领域。(x )

解析：许多特征提取技术是针对特定类型的数据或特定领域的问题而设计的。例如，在图像处理中，可能会使用与在文本分析或时间序列分析中完全不同的特征提取方法。

10.定量属性可以是整数值或者是连续值。(✓ )

解析：定量属性（也称为数值属性或度量属性）表示的是可以被测量或计数的数量。这些属性可以是整数值（如计数、编号等），也可以是连续值（如身高、体重、温度等）。

11.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。( ✓)

解析：在关联规则学习（如Apriori算法）中，先验原理（也称为反单调性）是一个关键概念，它指出如果一个项集不是频繁的，那么它的所有超集（即包含它的项集）也一定不是频繁的。这个原理用于减少在查找频繁项集时需要检查的候选项集的数量。

12.先验原理可以表述为：如果一个项集是频繁的，则包含它的所有项集也是频繁的。(X )

频繁的子集频繁，非频繁的超集非频繁

13.分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。( ✓)

解析：分类和回归是监督学习的两种主要类型。分类的输出是离散的类别标签，而回归的输出是连续值，通常用于预测数量。

14.贝叶斯法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。(✗ )

解析：

15.分类模型的误差大致分为两种：训练误差和泛化误差。(✓ )

解析：训练误差是模型在训练数据上的误差，而泛化误差是模型在新数据（即未见过的数据）上的误差。这两个误差都是评估模型性能的重要指标。

16.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。(× )

解析：在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越好，而不是越差。聚类的目标就是将相似的对象聚集在一起，同时使得不同簇之间的对象尽可能不同。因此，簇内相似性高和簇间差异大是聚类效果好的表现。

17.给定由两次运行K均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优。( ×)

解析：给定由两次运行K均值产生的两个不同的簇集，误差的平方和（SSE，Sum of Squared Errors）最小的那个应该被视为较优。SSE是各样本点到其所在簇中心的距离的平方和，它衡量了聚类结果的好坏。SSE越小，说明样本点与其所在簇中心的距离越近，即聚类效果越好。

18.线性回归模型由于自身的局限性只能描述变量间的线性关系。( ×)

解析：

21.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。( ×)

22.基于模型的聚类与基于分割的聚类相比，对数据分布有更好的描述性。(✓ )

解析：基于模型的聚类与基于分割的聚类相比，通常确实对数据分布有更好的描述性。基于模型的聚类方法（如基于概率模型的聚类）会假设数据服从某种分布（如高斯分布），并试图找到最佳拟合该分布的模型参数。这种方法能够更深入地理解数据的内在结构和分布。

23.具有较高的支持度的项集具有较高的置信度。( ×)

解析：具有较高的支持度的项集不一定具有较高的置信度。在关联规则挖掘中，支持度衡量的是项集在数据集中出现的频率，而置信度衡量的是当一个项集出现时，另一个项集也出现的概率。高支持度只说明项集在数据集中很普遍，但不一定说明它们之间有很强的关联关系（即高置信度）。

24.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。(✓ )

解析：Apriori原理指出，如果一个项集不是频繁的，那么它的所有超集也不是频繁的。这可以大大减少需要检查的候选项集的数量，从而提高频繁项集挖掘的效率。

25.可以利用概率统计方法估计数据的分布参数，再进一步估计待测试数据的概率，以此来实现贝叶斯分类。(✓ )

解析：贝叶斯分类器是基于贝叶斯定理与特征条件独立假设的分类方法。它首先根据训练数据估计出每个类别的先验概率和每个特征在每个类别下的条件概率，然后利用这些概率和贝叶斯定理计算出待测试数据属于各个类别的后验概率，并选择后验概率最大的类别作为预测结果。

26.数据库中某属性缺失值比较多时，数据清理可以采用忽略元组的方法。(X )

27.逻辑回归等同于一个使用交叉熵loss，且没有隐藏层的神经网络。(✓ )

解析：逻辑回归确实等同于一个使用交叉熵loss，且没有隐藏层的神经网络。逻辑回归模型通过计算输入特征的加权和，然后应用Sigmoid函数将结果映射到0和1之间，从而得到二分类的概率。这种模型可以看作是神经网络的一种简化形式，其中没有隐藏层，并使用交叉熵作为损失函数。

28.朴素贝叶斯分类器不存在数据平滑问题。( ×)

解析：朴素贝叶斯分类器存在数据平滑问题。当使用朴素贝叶斯分类器时，如果某个特征在训练集中没有出现过（即概率为0），那么该特征在预测时会导致整个概率乘积为0，从而影响分类结果。为了解决这个问题，通常会采用数据平滑技术，如拉普拉斯平滑（Laplace smoothing），将所有词的出现次数初始化为一个非零值（如1），并将分母相应地增加一个常量（如2）。

29.分类和回归都可用于预测，分类的输出是连续数值，而回归的输出是离散的类别值。( ×)

解析：分类的输出是离散的类别值，而回归的输出是连续数值。分类算法用于将数据集中的数据分为几个预定义的类别之一，而回归算法则用于预测一个连续值。

30.皮尔逊相关系数可用来判断X和Y之间的因果关系。(✓ )

31.样品是数据对象的别名。(✓ )

解析：样品（或样本）通常是数据对象的别名，特别是在统计学和机器学习中。它们指的是从总体中抽取出来的用于分析或研究的个体或观测值。

32.杰卡德系数用来度量非对称的二进制属性的相似性。( ✓)

33.K均值聚类的核心目标是将给定的数据集划分为K个簇，并给出每个数据对应的簇中心点。( ✓)

解析：K均值聚类的核心目标是将给定的数据集划分为K个簇，并给出每个簇的中心点（质心）。这些中心点是通过迭代计算每个簇中所有点的平均值来得到的。

35.离散属性总是具有有限个值。(× )

36.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。( X)

解析：仅仅满足最小支持度并不足以形成关联规则。关联规则还需要满足最小置信度。关联规则挖掘过程是发现满足最小支持度和最小置信度的所有项集代表的规则。

37.聚类是这样的过程：它找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。( X)