DataWhale - 吃瓜教程学习笔记(一)

学习视频第1章-绪论_哔哩哔哩_bilibili
西瓜书对应章节: 第一章


机器学习三观

What:什么是机器学习?

关键词“学习算法”

Why: 为什么要学机器学习?

#### 1. 机器学习理论研究

#### 2. 机器学习系统开发

#### 3. 机器学习算法迁移 (AI+)

#### 4. AI 应用方向研究:NLP, CV, 推荐系统

How: 怎样学习深度学习?

#### - 纯理论研究
#### - 系统的开发

1C6PR5L3A4ALU899PL%6V.png

#### - 算法迁移 (AI for Science)
#### - AI 应用方向研究

基础核心知识概念

假设空间 & 版本空间
假设空间定义了所有可能的解决方案;版本空间则是在考虑了训练数据后,认为可能正确的解决方案的集合
算法
从数据中学得模型的“具体方法”,其产出结果称为“模型”
样本(示例)
关于一个事件或对象的描述。用向量进行表示,向量中的各个维度称为“特征”或“属性“。向量中的元素用分号 ";" 表示为列向量,用逗号 ","表示为行向量。
标记
学习样本在某方面的表现存在潜在规律的的信息。
样本空间 & 标记空间
所有可能的输入数据或特征向量的集合;
所有可能的输出标签或目标值的集合
机器学习任务分类 (根据标记取值类型不同)
- 标记取值为“离散型”, 任务为 分类
- 标记取值为 “连续型”, 任务为 回归
机器学习任务分类 (根据是否用到标记信息)
- 训练阶段有用到标记信息,此类任务为 “监督学习”
- 训练阶段没用到标记信息,此类任务为 “无监督学习”
数据集
- 通常用集合表示
- 一般同一份数据集中的每个样本都含相同个数的特征
- 样本 $x_{ij}$ 表示样本 $x_i$ 在第 j 个属性上的取值
泛化
模型对未在训练过程中见过的数据进行准确预测的能力
分布
概率论中的概率分布。
归纳偏好
不同的机器学习算法有不同的偏好

- 最常用的评价方法是 - 基于模型在测试集上的表现评判模型的优劣。
- 机器学习算法没有绝对的优劣之分,只有是否适合当前待解决问题之分。
  • **没有免费的午餐定理(NFL)**: 众算法生而平等(哪个算法训出来的模型在测试集上表现好哪个算法 nb)。

数据决定模型的上限,算法则是让模型无限逼近上限

- 数据决定模型的上限

数据是指从 数据量特征工程 两个角度考虑

  • 通常数据量越大模型效果越好
  • 通常对特征数值化越合理,特征收集越全越细致,模型效果通常越好

在这里插入图片描述

相关推荐

  1. 【Ruby爬虫01】某网站图片数据采集

    2024-06-17 07:28:07       35 阅读
  2. DataWhale学习笔记-蝴蝶书共读】文本生成

    2024-06-17 07:28:07       39 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-17 07:28:07       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-17 07:28:07       101 阅读
  3. 在Django里面运行非项目文件

    2024-06-17 07:28:07       82 阅读
  4. Python语言-面向对象

    2024-06-17 07:28:07       91 阅读

热门阅读

  1. linux发行版CentOS、Debian和Ubuntu的对比

    2024-06-17 07:28:07       26 阅读
  2. 按键精灵的自动q语言连接mysql

    2024-06-17 07:28:07       21 阅读
  3. LeetCode --- 2073. Time Needed to Buy Tickets 解题报告

    2024-06-17 07:28:07       25 阅读
  4. ES6-04-模块化的暴露:export关键字

    2024-06-17 07:28:07       33 阅读
  5. ActiViz中不规则网络数据体绘制技术介绍

    2024-06-17 07:28:07       28 阅读
  6. C# OpenCvSharp 图像处理函数-颜色通道-cvtColor

    2024-06-17 07:28:07       31 阅读
  7. 【R语言入门】开启R的会话并大步向前!

    2024-06-17 07:28:07       34 阅读
  8. 解决小程序的异步请求问题

    2024-06-17 07:28:07       28 阅读
  9. flutter中采用腾讯云COS进行图片存储

    2024-06-17 07:28:07       25 阅读
  10. MongoDB PHP 教程

    2024-06-17 07:28:07       23 阅读
  11. 深入理解 CMake 的 `cmake --build` 命令

    2024-06-17 07:28:07       34 阅读
  12. 三、树和割集

    2024-06-17 07:28:07       29 阅读