【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——中

1.

某学校对入学的新生进行性格问卷调查(没有心理学家的参与),根据学生对问题的回答,把学生的性格分成了8个类别。请说明该数据挖掘任务是属于分类任务还是聚类任务?为什么?并利用该例说明聚类分析和分类分析的异同点

解答:

(a)该数据挖掘任务属于聚类任务(clustering)。

(b)该任务没有预先定义的类别标签,而是根据学生对问题的回答对学生的性别进行分类,将相似的学生划分到同一个类别中。聚类分析正是基于数据本身的特征将数据划分为不同的组或类别,这些类别在聚类之前是未知的。

聚类分析是一种无监督学习方法,是根据数据对象之间的相似性来分类。将学生分为8个类别是聚类算法的输出结果,而不是预先给定的目标类别。

(c)

相同点:

都是数据挖掘中常用的技术,用于从数据中提取有用的信息。
都可以将数据划分为不同的组或类别。

不同点:

1. 分类是有监督学习,需要标注训练数据;聚类是无监督学习,不需要标注数据。
2. 分类的目标是学习将实例准确分配到预定义的类别;聚类的目标是自动发现数据中的自然分组。
3. 分类适用于有明确目标类别的场景;聚类适用于发现数据内在模式和结构的场景。
4. 分类通常使用准确率、精确率、召回率等指标评估;聚类使用簇内相似度、簇间差异度等指标评估。
5. 算法不同:分类常用决策树、朴素贝叶斯、逻辑回归等;聚类常用K-Means、层次聚类、DBSCAN等。

2.

Apriori算法在数据挖掘中被广泛使用,已知有5000名球迷看奥运会,看乒乓球比赛和看篮球比赛的人数分别如下表所示:

看乒乓球

没看乒乓球

合计(行)

最近更新

  1. TCP协议是安全的吗?

    2024-06-14 22:20:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-14 22:20:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-14 22:20:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-14 22:20:02       18 阅读

热门阅读

  1. Docker相关命令

    2024-06-14 22:20:02       6 阅读
  2. Linux下安装MySQL

    2024-06-14 22:20:02       6 阅读
  3. PostgreSQL 的内置函数

    2024-06-14 22:20:02       6 阅读
  4. spring 单元测试注解

    2024-06-14 22:20:02       7 阅读
  5. python中装饰器的用法

    2024-06-14 22:20:02       8 阅读
  6. vue3.0(十三)内置组件Transition和TransitionGroup

    2024-06-14 22:20:02       8 阅读
  7. git删除分支

    2024-06-14 22:20:02       6 阅读
  8. CSS基础样式

    2024-06-14 22:20:02       7 阅读