数据挖掘笔记1

课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili

一、Learning Resources

二、Data

  • 数据是最底层的一种表现形式。
  • 数据具有连续性。
  • 从存储上来讲,数据分为逻辑上的和物理层的。
  • 大数据:数据量大、产生速度快、数据种类多、

  

三、The Process of Data Mining 

四、clustering聚类

聚类:把一堆数据分为一组一组的(没有标签)

层次性聚类:

一个一个单独的elements/items,两两去聚。

五、 云计算

把服务器当作一种资源,随着访问需求变化,从云计算的服务商地方租,使利用率变高。

  • Pay As You Go
  • Software as a Service
  • Platform as a Service
  • Infrastructure as a Service

六、并行运算

把问题进行切分,分配到不同的处理器上。

七、

  • 解决数据挖掘:想清楚数据之间到底有没有规律
  • 看问题要全面,要从多个角度、多个维度思考,不能以偏概全。
  • 注意:存在内在分组
  • 不能忘记时间维度。
  • 幸存者偏差问题:

样本可能存在偏差。

相关推荐

  1. 数据挖掘笔记

    2024-01-24 06:16:01       27 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-24 06:16:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-24 06:16:01       101 阅读
  3. 在Django里面运行非项目文件

    2024-01-24 06:16:01       82 阅读
  4. Python语言-面向对象

    2024-01-24 06:16:01       91 阅读

热门阅读

  1. kafka

    2024-01-24 06:16:01       42 阅读
  2. HTML/CSS实现3D翻转页面效果

    2024-01-24 06:16:01       58 阅读
  3. elementui 表单数据嵌套过深导致校验不了问题解决

    2024-01-24 06:16:01       54 阅读
  4. 编程笔记 html5&css&js 055 css默认值

    2024-01-24 06:16:01       46 阅读
  5. 【开发工具】从eclipse到idea的过度

    2024-01-24 06:16:01       52 阅读
  6. PyTorch

    2024-01-24 06:16:01       52 阅读
  7. 【PyTorch】PyTorch之包装容器

    2024-01-24 06:16:01       38 阅读
  8. React中实现虚拟加载滚动

    2024-01-24 06:16:01       52 阅读
  9. 设计模式-单例模式

    2024-01-24 06:16:01       50 阅读
  10. 和GPT讨论知识蒸馏的基本概念

    2024-01-24 06:16:01       55 阅读
  11. 【Sentinel 控制台无应用显示-如何排查】

    2024-01-24 06:16:01       55 阅读