【机器学习】一文读懂统计学与机器学习的区别。

1、机器学习

关于机器学习,我想大家都很熟悉,这里我再简单唠叨一些

在这里插入图片描述
机器学习是人工智能的一个子领域,主要关注如何通过算法使计算机系统能够从数据中“学习”并进行自我优化。

这些算法利用输入的数据,通过识别模式、关联性或预测未来趋势,来改进系统性能或做出决策。

机器学习已被广泛应用于各种领域,如自动驾驶、医疗诊断、推荐系统等。

2、统计学

统计学是一门研究如何收集、分析、解释和呈现数据的数学科学。

它关注于对随机现象的理解和推断,通过设计实验、建立概率模型和假设检验来探索变量间的关系及其不确定性。

统计学家致力于开发出有效的估计量、测试统计量,并利用贝叶斯分析等手段来量化不确定性。

统计推断是该领域的核心内容之一,旨在理解总体参数(如均值、方差)并评估样本结果是否能代表总体特征。

3、统计学与机器学习异同性

3.1 差异性

  • 机器学习(这里特指有监督学习)的目的是获得一个可反复预测的模型。我们通常不关心模型是否可以解释。机器学习只在乎结果。就好比对公司而言,你的价值只用你的表现来衡量。

  • 统计建模更多的是为了寻找变量之间的关系和确定关系的显著性,恰巧迎合了预测。

接下来,我们就通过一个例子来感受一下,这两者的实际差异:

我是一名环境科学家。工作的主要内容是和传感器数据打交道。如果我试图证明传感器能够对某种刺激(如气体浓度)做出反应, 那么我将使用统计模型来确定信号响应是否具有统计显著性。我会尝试理解这种关系,并测试其可重复性,以便能够准确地描述传感器的响应,并根据这些数据做出推断。我还可能测试,响应是否是线性的?响应是否归因于气体浓度而不是传感器中的随机噪声?等等。

而同时,我也可以拿着从20个不同传感器得到的数据, 去尝试预测一个可由他们表征的传感器的响应。

用一个包含20个不同变量的模型来表征传感器的输出显然是一种预测,而且我也没期待模型是可解释的。

要知道,由于化学动力学产生的非线性以及物理变量与气体浓度之间的关系等等因素,可能会使这个模型非常深奥,就像神经网络那样难以解释。尽管我希望这个模型能让人看懂, 但其实只要它能做出准确的预测,我就相当高兴了。

如果我试图证明数据变量之间的关系在某种程度上具有统计显著性,以便我可以在科学论文中发表,我将使用统计模型而不是机器学习。

这是因为我更关心变量之间的关系,而不是做出预测。做出预测可能仍然很重要,但是大多数机器学习算法缺乏可解释性,这使得很难证明数据中存在的关系。
在这里插入图片描述
很明显,这两种方法在目标上是不同的,尽管使用了相似的方法来达到目标。
机器学习算法的评估使用测试集来验证其准确性
然而,对于统计模型,通过置信区间、显著性检验和其他检验对回归参数进行分析,可以用来评估模型的合法性

因为这些方法产生相同的结果,所以很容易理解为什么人们会假设它们是相同的。

3.2 相似性

机器学习基于统计的框架,因为机器学习涉及数据,而数据必须基于统计学框架来进行描述,所以这点十分明显。然而,扩展至针对大量粒子的热力学的统计机制,同样也建立在统计学框架之下。

压力的概念其实是数据,温度也是一种数据。你可能觉得这听起来不合理,但这是真的。这就是为什么你不能描述一个分子的温度或压力,这不合理。温度是分子相撞产生的平均能量的显示。而例如房屋或室外这种拥有大量分子的,我们能用温度来描述也就合理了。

你会认为热力学和统计学是一个东西吗?当然不会,热力学借助统计学来帮助我们理解运动的相互作用以及转移现象中产生的热。

事实上,热力学基于多种学科而非仅仅统计学。类似地,机器学习基于许多其他领域的内容,比如数学和计算机科学。举例来说:

  • 机器学习的理论来源于数学和统计学

  • 机器学习算法基于优化理论、矩阵代数和微积分

  • 机器学习的实现来源于计算机科学和工程学概念,比如核映射、特征散列等。

当一个人开始用Python开始编程,突然从Sklearn程序库里找出并使用这些算法,许多上述的概念都比较抽象,因此很难看出其中的区别。这样的情况下,这种抽象定义也就致使了对机器学习真正包含的内容一定程度上的无知。
在这里插入图片描述

4、总结

看到这里,关于机器学习与统计学的差异性就介绍完成了。

其实,这里更多的是偏理性的内容多一些,接下来的博文,
小鱼也会通过一些实例,来讲解机器学习、数据科学等知识。
让大家能通过言简意赅的语言来掌握机器学习、数据科学等知识。

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO博客专家
  • 51认证讲师等
  • 认证金牌面试官
  • 职场面试培训、职场规划师
  • 多个国内主流技术社区的认证专家博主
  • 多款主流产品(阿里云等)测评一、二等奖获得者

关注小鱼,带你学习更多更专业更前沿机器学习技术。

相关推荐

  1. Qt信号机制

    2024-01-28 16:34:02       31 阅读
  2. 入门机器学习

    2024-01-28 16:34:02       8 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-28 16:34:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-28 16:34:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-28 16:34:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-28 16:34:02       18 阅读

热门阅读

  1. postgresql 12 安装

    2024-01-28 16:34:02       35 阅读
  2. 洛谷B3625迷宫寻路

    2024-01-28 16:34:02       29 阅读
  3. 用vue写表格实现数量的加减

    2024-01-28 16:34:02       39 阅读
  4. 算法训练营Day59(单调栈2)

    2024-01-28 16:34:02       34 阅读
  5. STM32F407移植OpenHarmony笔记2

    2024-01-28 16:34:02       33 阅读