关于预训练模型的一点感悟

最近,Yann LeCun 在 WGS 上说:

目前的LLM不可能走到AGI,原因很简单,现在训练这些LLM所使用的数据量为10万亿个令牌,也就是130亿个词,如果你计算人类阅读这些数据需要多长时间,一个人每天阅读8小时,需要15万年才能读完。

但如果看一个4岁的孩子,已经清醒了总共16,000个小时,但如果你计算进入视觉皮层的数据量,大约每秒20兆字节,那么4年输入的数据量,将是目前最大的LLM的50倍。因此,仅通过在文本上训练AI,永远无法达到人类水平智能。

文本是一个非常贫瘠的信息来源,带宽非常低,只反映了人类知识的很小一部分。人类的大部分知识来自于我们与真实世界、与他人以及其他世界实体的互动,而不是来自语言。

在AI取得真正的进步之前,我们需要一些突破。这个突破将从哪里来?可能是科学层面,不会仅仅通过扩展现有的架构规模并在更多数据上训练它们就能实现。

首先,随着我们增加LLM的数据量,性能正在趋于饱和,我们没有更多的数据,已经用完了互联网上的所有公开数据,所以这行不通(不认可合成数据?)。婴儿大约只需要九个月就能学会直觉物理学,即物体如果没有支撑物就会因为重力而掉落,他们使用的是哪种学习方式,这仍然是一个谜,我们正在努力解决这个问题,但还需要一段时间。”

打个可能不太恰当的比方,婴儿的大脑更像是预训练模型,人类亿万年的进化史给每个人提供了通用智能模型,每一个人究其一生只是在通用智能模型的基础之上作微调和对齐。

相关推荐

  1. 关于训练模型一点感悟

    2024-02-18 09:00:02       52 阅读
  2. 关于查找问题一些感悟

    2024-02-18 09:00:02       49 阅读
  3. NLP训练模型

    2024-02-18 09:00:02       31 阅读
  4. 训练语言模型

    2024-02-18 09:00:02       34 阅读
  5. 训练模型分类,以及代表模型介绍

    2024-02-18 09:00:02       58 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-18 09:00:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-18 09:00:02       101 阅读
  3. 在Django里面运行非项目文件

    2024-02-18 09:00:02       82 阅读
  4. Python语言-面向对象

    2024-02-18 09:00:02       91 阅读

热门阅读

  1. 23种设计模式之:命令模式

    2024-02-18 09:00:02       44 阅读
  2. DAY52:动态规划(打家劫舍系列)

    2024-02-18 09:00:02       53 阅读
  3. 力扣热题100_滑动窗口_3_无重复字符的最长子串

    2024-02-18 09:00:02       59 阅读
  4. 掘根宝典之C++类模板大全

    2024-02-18 09:00:02       29 阅读
  5. 【设计模式】观察者模式Observer Pattern

    2024-02-18 09:00:02       52 阅读
  6. 在Ubuntu-12.04环境下使用新的Rust开发工具

    2024-02-18 09:00:02       48 阅读
  7. UI自动化-(web入门示例)

    2024-02-18 09:00:02       48 阅读
  8. ValueError check_hostname requires server_hostname 报错

    2024-02-18 09:00:02       41 阅读
  9. WordPress Nginx 报错 502 Bad Gateway

    2024-02-18 09:00:02       211 阅读