关于预训练模型的一点感悟

2024-02-18 09:00:02
开发
51

最近，Yann LeCun 在 WGS 上说：

目前的LLM不可能走到AGI，原因很简单，现在训练这些LLM所使用的数据量为10万亿个令牌，也就是130亿个词，如果你计算人类阅读这些数据需要多长时间，一个人每天阅读8小时，需要15万年才能读完。

但如果看一个4岁的孩子，已经清醒了总共16,000个小时，但如果你计算进入视觉皮层的数据量，大约每秒20兆字节，那么4年输入的数据量，将是目前最大的LLM的50倍。因此，仅通过在文本上训练AI，永远无法达到人类水平智能。

文本是一个非常贫瘠的信息来源，带宽非常低，只反映了人类知识的很小一部分。人类的大部分知识来自于我们与真实世界、与他人以及其他世界实体的互动，而不是来自语言。

在AI取得真正的进步之前，我们需要一些突破。这个突破将从哪里来？可能是科学层面，不会仅仅通过扩展现有的架构规模并在更多数据上训练它们就能实现。

首先，随着我们增加LLM的数据量，性能正在趋于饱和，我们没有更多的数据，已经用完了互联网上的所有公开数据，所以这行不通（不认可合成数据？）。婴儿大约只需要九个月就能学会直觉物理学，即物体如果没有支撑物就会因为重力而掉落，他们使用的是哪种学习方式，这仍然是一个谜，我们正在努力解决这个问题，但还需要一段时间。”

打个可能不太恰当的比方，婴儿的大脑更像是预训练模型，人类亿万年的进化史给每个人提供了通用智能模型，每一个人究其一生只是在通用智能模型的基础之上作微调和对齐。

原文地址:https://blog.csdn.net/u011617563/article/details/136142107 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1759019908584312832.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-02-18 09:00:02 117 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-02-18 09:00:02 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-02-18 09:00:02 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-02-18 09:00:02 101 阅读
NoSQL之Redis非关系型数据库

2024-02-18 09:00:02 101 阅读
2024.7.22 作业

2024-02-18 09:00:02 98 阅读
GDB调试正在运行的程序

2024-02-18 09:00:02 82 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-02-18 09:00:02 85 阅读
在Django里面运行非项目文件

2024-02-18 09:00:02 82 阅读
SSD基本架构与工作原理

2024-02-18 09:00:02 87 阅读
在誉天学习完HCIE就业吗？

2024-02-18 09:00:02 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-02-18 09:00:02 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-02-18 09:00:02 86 阅读
go 协程池的实现

2024-02-18 09:00:02 89 阅读
Shell脚本循环语句与函数

2024-02-18 09:00:02 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-02-18 09:00:02 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-02-18 09:00:02 85 阅读
四大引用——强软弱虚

2024-02-18 09:00:02 87 阅读
Python语言-面向对象

2024-02-18 09:00:02 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-02-18 09:00:02 85 阅读
网站安全-CDN篇

2024-02-18 09:00:02 89 阅读