『大模型笔记』缩放定律(scaling laws)是由记忆而非智力解释的吗?

MAC

一. 缩放定律(scaling laws)是由记忆而非智力解释的吗?

1. 视频原文内容

在这里插入图片描述

  • 一般智能并不是将特定任务的技能扩展到很多技能,因为可能的技能是无限的。一般智能是能够解决任何问题、掌握任何技能,并且使用非常少的数据迅速掌握这些技能的能力。这使你能够应对可能遇到的任何情况。这就是一般性的定义。一般性不是将特定的技能放大,而是能够将你的思维应用于任何事物,任何任意的事物。这需要适应和高效的即时学习能力。
  • 规模最大化的论点,归根结底,这些人指的是“规模损失”,这是你在训练模型时花费的计算量和你在基准测试中获得的性能之间的经验关系。那么关键问题是,如何衡量性能?增加更多的计算和数据实际上在提高什么?答案是基准测试的性能。
  • 问题是,衡量性能的方式并不是一个技术细节。它不是事后考虑的事情,因为它会缩小你提出的问题

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-14 12:56:05       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-14 12:56:05       106 阅读
  3. 在Django里面运行非项目文件

    2024-06-14 12:56:05       87 阅读
  4. Python语言-面向对象

    2024-06-14 12:56:05       96 阅读

热门阅读

  1. 云顶之弈-测试报告

    2024-06-14 12:56:05       33 阅读
  2. AtCoder Beginner Contest 357 C - Sierpinski carpet

    2024-06-14 12:56:05       51 阅读
  3. Threejs-11、材质文理颜色

    2024-06-14 12:56:05       33 阅读
  4. Flutter知识点

    2024-06-14 12:56:05       33 阅读
  5. 软件设计模式概述

    2024-06-14 12:56:05       28 阅读
  6. Linux之逻辑控制符&&

    2024-06-14 12:56:05       31 阅读
  7. 带你学习Mybatis之执行器Executor

    2024-06-14 12:56:05       28 阅读
  8. 聊聊C/S模式架构的优缺点

    2024-06-14 12:56:05       33 阅读
  9. 面试题(常见)

    2024-06-14 12:56:05       35 阅读
  10. Webrtc支持FFMPEG硬解码之NVIDA(二)

    2024-06-14 12:56:05       35 阅读