一文理解机器学习三要素

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


机器学习,作为人工智能的重要分支,使计算机能够通过数据自动学习并不断优化模型,以提高预测和决策的准确性和效率。机器学习方法可以概述如下:

  • 出发点是给定的、有限的训练数据集,假设这些数据遵循独立同分布。同时,假定待学习的模型属于一个特定的函数集合,即假设空间

  • 根据特定评价准则,从假设空间中选择一个最优模型,该模型能够在该准则下对已知训练数据和未知测试数据实现最优预测。该最优模型的确定由相应算法完成

  • 在此过程中,模型、策略和算法这三个要素至关重要

因此,机器学习方法由三大要素构成:模型的假设空间、评价准则以及学习算法,分别简称为模型(model)、策略(strategy)和算法(algorithm)。机器学习方法的差异主要源于其模型、策略与算法的不同。一旦这三者被确定下来,相应的机器学习方法便随之确立。

在这里插入图片描述

机器学习的目标是通过学习数据中的模式,发现数据的内在规律,以提高预测和决策的准确性和效率。理解和选择合适的模型、策略和算法是实现这一目标的关键。面对现实世界的复杂性,我们需要创新的思考和方法,有时还需要开发新的模型和算法来解决复杂的问题。因此,理解机器学习三要素有助于更好地学习并实践相关的机器学习方法。

1. 模型

根据具体问题和数据特点,确定假设空间。模型是机器学习的核心,它决定了机器学习所能理解和解决的问题类型。模型的选择和优化是一个复杂的过程,需要考虑许多因素,如数据的特性、问题的需求等。此外,特征工程也是一个关键步骤,它可以显著提高模型的性能。在实际应用中,我们可能需要根据具体的任务需求和数据特性来选择合适的模型类型和学习方法。

通常情况下,模型为数学模型,通过输入数据到输出数据的映射描述数据内在的规律和关系。机器学习中,模型学习即为不断优化参数以最小化预测误差的过程。模型的预测结果与实际情况之间误差越小,则模型越优。构建有效的模型需明确问题定义、目标及约束条件。(例如根据标签的取值是连续的还是离散类别,确定是分类模型还是回归模型;分析数据集的特点,确定使用线性模型还是非线性模型)

在机器学习中,首先需要考虑的问题是决定要学习什么类型(形式)的模型。这个决策可能涉及到选择是进行有监督学习还是无监督学习,是进行分类任务还是回归任务,或者是进行聚类还是降维等等。这一选择主要是根据当前的任务需求以及所处理数据的特点来初步确定的。

2. 策略

根据评价准则,确定选择最优模型的策略,这里通常会产生 “损失函数”。策略是机器学习的第二个要素,它决定了如何从数据中学习模型。策略通过引入损失函数来度量模型的好坏,并指导模型的学习过程。损失函数是衡量模型预测结果与真实结果差距的一个重要工具,通过最小化损失函数,我们可以找到最优模型。损失函数的值越小表明模型预测能力越强。(例如回归模型中常用 MSE 作为损失函数,分类模型常用对数损失或交叉熵作为损失函数)

损失函数和风险函数是机器学习中的重要概念,它们衡量模型预测的准确性。损失函数关注单个样本的误差,而风险函数关注所有样本的平均误差。机器学习的目标是在新数据上表现良好,因此我们关心的是期望风险函数。但由于新数据通常是未知的,模型学习时无法计算期望风险函数,因此采用经验风险函数(基于训练集)作为代替方案。但是,如果模型在训练集上过度拟合,可能会学习到过多特定于训练集的特质,引发过拟合问题。因此,我们需要对经验风险函数进行调整,这一过程称为正则化。引入正则化项后得到结构风险函数

在机器学习中,我们需要找到一种平衡,既要使模型在训练数据上表现良好,又要防止过拟合,以便模型在新数据上也能表现良好。这就需要我们引入正则化来调整经验风险函数。创新的想法可能包括开发新的正则化技术或损失函数,以更好地处理特定类型的数据或任务。例如,对于标签不平衡数据集,可能需要设计新的损失函数,以便模型能更好地关注少数类别。对于具有复杂结构的数据(如图像或文本),可能需要开发新的正则化技术,以便模型能更好地捕捉特定信息或解决长尾问题。

不同的学习策略会导致不同的学习算法和模型性能。这是因为每种策略都有其特定的目标和优化方法。例如,在有监督学习中,损失函数通常根据标签信息计算误差;在无监督学习中,则依据数据间相似性或距离进行计算(挖掘数据的内在结构或模式)。另外,还存在特殊类型的机器学习策略,例如强化学习等。强化学习与有监督学习和无监督学习有很大的不同,因为它不仅关注预测误差或数据结构,还关注如何通过与环境的交互来最大化奖励。

分类任务常用的损失函数:对数损失、二元交叉熵损失、多类别交叉熵损失、Hinge 损失、平方误差损失、指数损失

回归任务常用的损失函数:均方误差、均方根误差、平均绝对误差、平均绝对百分比误差、Huber 损失、Log-Cosh 损失、Quantile 损失

每种损失函数都有其特点和适应场景,在选择时应考虑具体问题、数据特性及模型要求,以达到最佳效果。

3. 算法

我们已经明确了模型的形式和学习策略,即对模型的结构和所需的评价准则有了清晰的认知。那么接下来的问题是,如何得到这一理想模型呢?

求解损失函数,确定最优模型。具体而言,这涉及到如何确定最优模型参数的问题。此问题本质上是一个优化问题,通常通过最小化经验风险函数或结构风险函数进行求解。因此,机器学习问题可被视为一种最优化问题,其算法旨在解决这一类问题。优化算法是求解最优模型的关键,下面介绍几种常用的优化算法:

  • 梯度下降法(Gradient Descent)

  • 牛顿法和拟牛顿法(Newton’s Method & Quasi-Newton Method)

  • 共轭梯度法(Conjugate Gradient)

  • 启发式优化方法

  • 解决约束优化问题 —— 拉格朗日乘子法

机器学习的目标是找到一个最优模型,这需要我们对模型的结构、学习策略以及优化算法有深入的理解和掌握。

总结:

机器学习的三大要素为模型、策略和算法。

  1. 模型是核心,决定了机器学习系统能够理解和解决的问题类型;

  2. 策略是指导模型学习的准则,通过引入损失函数来衡量模型预测结果与真实结果的差距;

  3. 算法是实现模型和策略的工具,旨在寻找模型的最优参数。

在实际应用中,应针对具体问题和数据特点来选择最合适的模型、策略和算法,以实现高效的预测和决策。

也存在另一种说法:机器学习的三要素为数据、模型和算法。数据是机器学习的基础,需要进行特征工程和标注。模型是通过训练得到的,可以将输入数据映射为输出结果(策略隐含在模型构建中)。算法则是用于优化模型的方法。在机器学习中,数据的质量往往比算法更重要。业界广为流传的一句话是:“数据和特征决定了机器学习的潜力上限,而模型和算法则负责逼近这一上限。

值得进一步探索的实践方向:开发新的模型、策略或算法,以更好地解决特定的问题;或者研究如何更有效地利用数据,例如通过更好的特征工程或数据预处理方法来提高模型的预测性能。此外,也可以探索如何将策略和数据的视角结合起来,以实现更全面和有效的机器学习过程。例如,可以研究如何通过改进损失函数或优化算法来更好地利用数据,或者如何通过数据驱动的方法来指导策略的选择和模型的优化。


📚️ 相关链接:

相关推荐

  1. 入门机器学习

    2024-03-30 10:32:01       8 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-30 10:32:01       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-30 10:32:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-30 10:32:01       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-30 10:32:01       20 阅读

热门阅读

  1. Springmvc文件下载例子

    2024-03-30 10:32:01       21 阅读
  2. C#多线程编程详细教学

    2024-03-30 10:32:01       21 阅读
  3. c++中缓冲器的使用案例

    2024-03-30 10:32:01       22 阅读
  4. [超细] npm 版本号规范升级流程

    2024-03-30 10:32:01       20 阅读
  5. pnpm 使用

    2024-03-30 10:32:01       20 阅读
  6. OpenCV摄像头和视频处理

    2024-03-30 10:32:01       19 阅读
  7. MySQL-分片规则

    2024-03-30 10:32:01       19 阅读
  8. 蓝桥杯-0玩具

    2024-03-30 10:32:01       19 阅读
  9. PyQt-QtWidgets-QFileDialog

    2024-03-30 10:32:01       19 阅读
  10. ITIL服务管理知识要点梳理

    2024-03-30 10:32:01       21 阅读
  11. 富格林:可信招数揭发防备暗箱陷阱

    2024-03-30 10:32:01       23 阅读