机器学习基础概念

1.机器学习定义

2.机器学习工作流程

        (1)数据集

                ①一行数据:一个样本

                ②一列数据:一个特征

                ③目标值(标签值):有些数据集有目标值,有些数据集没有。因此数据类型由特征值+目标值构成或仅由特征值构成。

        (2)数据分割:机器学习的数据集一般划分为训练数据(用于构建模型)和测试数据(用于模型评估)两个部分,划分比例一般为7:3、4:1、3:1。

        (3)数据基本处理:对数据的缺失值、异常值进行处理

        (4)特征工程(Feature Engineering):处理数据使特征在机器学习上更好发挥作用的过程

                注:业界流传,数据和特征决定机器学习的上限,而模型和算法只是逼近这个上限

                ①特征提取:将任意数据(如文本或图像)转为可用于机器学习的数字特征

                ②特征预处理:通过一些转换函数将特征数据转成更适合算法模型的特征数据

                ③特征降维:在某些限定条件下,降低随机变量(特征)个数得到一组不相关的主变量

        (5)机器学习:选择合适的算法对模型进行训练

        (6)模型评估:对训练好的模型进行评估

3.机器学习算法分类(根据数据集组成不同进行划分)

        (1)监督学习:输入数据由特征值和目标值组成,函数的输出(目标值)可以是一个连续的值(回归)或是有限个离散值(分类)

                ①回归问题:预测房价,根据样本集拟合出一条连续曲线

                ②分类问题:根据肿瘤特征预测是良性还是恶性

        (2)无监督学习:输入数据由特征值组成,输入的数据没有被标记也没有确定结果,样本数据类别未知,需根据样本间的相似性对样本集进行类别划分

        (3)半监督学习:训练集同时包含有标记(有目标值)数据和未标记(没有目标值)数据

        (4)强化学习:实质是做决策问题,即自动进行决策,并且可以做连续决策,强化学习的目标就是获得最多的累计奖励

4.模型评估

        (1)分类模型评估:准确率(预测正确的数占样本总数的比例)、精确率、召回率、F1-score、AUC指标

        (2)回归模型评估:均方根误差RMSE(p_i为预测值,a_i为实际值)、相对平方误差RSE、平均绝对误差MAE、相对绝对误差RAE

        (3)模型表现效果:过拟合(所建的机器学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳)、欠拟合(模型学习太粗糙,连训练集中样本数据的特征关系都没有学出来)

5.深度学习:也称深度结构学习、层次学习、深度机器学习,是一类算法集合,是机器学习的一个分支,在会话识别、图像识别和对象侦测等领域表现出惊人的准确性。

相关推荐

  1. 机器学习--基础概念(二)

    2024-07-10 23:38:06       57 阅读
  2. 机器学习(1)基础概念

    2024-07-10 23:38:06       46 阅读
  3. 机器学习系列-1基础概念

    2024-07-10 23:38:06       51 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-10 23:38:06       100 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-10 23:38:06       107 阅读
  3. 在Django里面运行非项目文件

    2024-07-10 23:38:06       90 阅读
  4. Python语言-面向对象

    2024-07-10 23:38:06       98 阅读

热门阅读

  1. 文心一言指令:快速入门手册

    2024-07-10 23:38:06       23 阅读
  2. 入门ARP协议

    2024-07-10 23:38:06       29 阅读
  3. 速盾:cdn 支持php吗?

    2024-07-10 23:38:06       28 阅读
  4. 【MySQL】MySQL索引失效场景

    2024-07-10 23:38:06       30 阅读
  5. Spark SQL

    Spark SQL

    2024-07-10 23:38:06      22 阅读
  6. windows node降级到指定版本

    2024-07-10 23:38:06       24 阅读
  7. 153. 寻找旋转排序数组中的最小值

    2024-07-10 23:38:06       23 阅读