【第一章引言】

2024-01-18 07:38:01
开发
51

引言

参考链接：https://github.com/datawhalechina/so-large-lm/tree/main

1.1 什么是语言模型

语言模型（LM） 的经典定义是⼀种对令牌序列(token)的概率分布。

从数学上讲，语⾔模型是⼀个⾮常简单⽽⼜美妙的对象。但是这种简单是具有欺骗性的：赋予所有序列以（有意义的）概率的能力，该能力要求语⾔模型具有非凡的（但是隐含的）语⾔能⼒和世界知识。

自回归语言模型(Autoregressive languagemodels) 的特点是它可以利⽤例如前馈神经⽹络等⽅法有效计算出每个条件概率分布p(xi|x1:i-1)。

1.2 大模型相关历史回顾

信息理论
语⾔模型的发展可以追溯到克劳德·⾹农，他在1948年的具有⾥程碑意义的论⽂《通信的数学理论》中奠定了信息理论的基础。熵实际上是⼀个衡量将样本x~p 编码（即压缩）成⽐特串所需要的预期⽐特数的度量。熵的值越⼩，表明序列的结构性越强，编码的⻓度就越短。
英语的熵
⾹农特别对测量英语的熵感兴趣，将其表示为⼀系列的字⺟。这意味着我们想象存在⼀个“真实”的分布p（这种存在是有问题的，但它仍然是⼀个有⽤的数学抽象），它能产⽣英语⽂本样本x∼p。
n-gram模型
语⾔模型⾸先被⽤于需要⽣成⽂本的实践应用：
1970年代的语⾳识别（输⼊：声⾳信号，输出：⽂本）
1990年代的机器翻译（输⼊：源语⾔的⽂本，输出：⽬标语⾔的⽂本）
噪声信道模型。当时解决这些任务的主要模型是噪声信道模型。

1.3 这门课的意义

所谓的“⼤型”是指什么？随着深度学习在2010年代的兴起和主要硬件的进步（例如GPU），神经语⾔模型的规模已经⼤幅增加。在过去4年中，模型的⼤⼩增加了5000倍。
尽管很多技术细节是相同的，令⼈惊讶的是，“仅仅扩⼤规模”就能产⽣新的出现⾏为，从⽽带来定性上不同的能⼒和定性上不同的社会影响。

1.4 总结

单⼀的⼤型语⾔模型是⼀个万事通（也是⼀⽆所⻓）。它可以执⾏⼴泛的任务，并且能够具备上下⽂学习等新出现的⾏为。
⼤型语⾔模型仍然存在许多重要的⻛险，这些⻛险是开放的研究问题。

原文地址:https://blog.csdn.net/LucyLuo2020/article/details/135606650 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1747765245662859264.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

【第一章引言】

2024-01-18 07:38:01 52 阅读
【Datawhale 大模型基础】第一章：引言

2024-01-18 07:38:01 60 阅读
第二章变量和引用

2024-01-18 07:38:01 38 阅读
第一章引言-HTTP协议基础概念和前后端分离架构请求交互概述

2024-01-18 07:38:01 51 阅读
第1章引言

2024-01-18 07:38:01 55 阅读
ROS2高效学习第一章 -- ros2系统介绍及DDS引入

2024-01-18 07:38:01 60 阅读
第一章：绪论（上）

2024-01-18 07:38:01 51 阅读
第一章 Linux 入门

2024-01-18 07:38:01 59 阅读
第一章绪论

2024-01-18 07:38:01 50 阅读
第一章 mysql相识

2024-01-18 07:38:01 51 阅读

最近更新

题解 - 序列

2024-01-18 07:38:01 122 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-01-18 07:38:01 108 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-01-18 07:38:01 98 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-01-18 07:38:01 106 阅读
NoSQL之Redis非关系型数据库

2024-01-18 07:38:01 108 阅读
2024.7.22 作业

2024-01-18 07:38:01 105 阅读
GDB调试正在运行的程序

2024-01-18 07:38:01 87 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-01-18 07:38:01 90 阅读
在Django里面运行非项目文件

2024-01-18 07:38:01 87 阅读
SSD基本架构与工作原理

2024-01-18 07:38:01 94 阅读
在誉天学习完HCIE就业吗？

2024-01-18 07:38:01 98 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-01-18 07:38:01 90 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-01-18 07:38:01 92 阅读
go 协程池的实现

2024-01-18 07:38:01 93 阅读
Shell脚本循环语句与函数

2024-01-18 07:38:01 96 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-01-18 07:38:01 98 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-01-18 07:38:01 90 阅读
四大引用——强软弱虚

2024-01-18 07:38:01 92 阅读
Python语言-面向对象

2024-01-18 07:38:01 96 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-01-18 07:38:01 91 阅读
网站安全-CDN篇

2024-01-18 07:38:01 93 阅读

热门阅读

NLP任务中常用的损失函数

2024-01-18 07:38:01 54 阅读
2024年1月17日Arxiv热门NLP大模型论文：THE FAISS LIBRARY

2024-01-18 07:38:01 57 阅读
探索设计模式的魅力：抽象工厂模式的艺术

2024-01-18 07:38:01 54 阅读
10.抽象工厂模式

2024-01-18 07:38:01 59 阅读
IDEA中的插件导出或者导入插件

2024-01-18 07:38:01 55 阅读
[go] 单例模式

2024-01-18 07:38:01 57 阅读
苹果要在iPhone上运行AI大模型？

2024-01-18 07:38:01 62 阅读
MyBatis-Plus之内置接口&Service接口&Mapper接口

2024-01-18 07:38:01 60 阅读
美易官方：苹果承认GPU安全漏洞存在：iPhone 12和M2系列受影响

2024-01-18 07:38:01 52 阅读
《设计模式的艺术》笔记 - 桥接模式

2024-01-18 07:38:01 51 阅读
循环神经网络的变体模型-LSTM、GRU

2024-01-18 07:38:01 46 阅读
华为数通方向HCIP-DataCom H12-831题库(判断题：21-40）

2024-01-18 07:38:01 54 阅读
浅析GitHub Copilot

2024-01-18 07:38:01 58 阅读
【华为 ICT & HCIA & eNSP 习题汇总】——题目集2

2024-01-18 07:38:01 48 阅读
GRU门控循环单元神经网络的MATLAB实现（含源代码）

2024-01-18 07:38:01 64 阅读
【书籍】强化学习第二版（英文版电子版下载、github源码）-附copilot翻译的中英文目录...

2024-01-18 07:38:01 44 阅读
蓝桥杯最长递增

2024-01-18 07:38:01 60 阅读
使用docker搭建Jenkins

2024-01-18 07:38:01 51 阅读
在 Jenkins 中使用 SSH Servers 配置文件上传路径

2024-01-18 07:38:01 53 阅读
Eclipse搭建python环境

2024-01-18 07:38:01 57 阅读
ARM 1.15

2024-01-18 07:38:01 47 阅读
Elasticsearch：将数据从 Snowflake 摄取到 Elasticsearch

2024-01-18 07:38:01 55 阅读
OpenHarmony ArkUI ETS- 装饰器解读

2024-01-18 07:38:01 51 阅读
VSCode编写 C/C++ 程序

2024-01-18 07:38:01 51 阅读
上海亚商投顾：沪指探底回升大金融板块午后走强

2024-01-18 07:38:01 60 阅读
后端杂七杂八系列篇三

2024-01-18 07:38:01 43 阅读
时间序列预测 — BiLSTM-Attention实现单变量负荷预测(Tensorflow)

2024-01-18 07:38:01 40 阅读
《WebKit 技术内幕》之三（2）： WebKit 架构和模块

2024-01-18 07:38:01 52 阅读
残差网络 ResNet

2024-01-18 07:38:01 56 阅读
【MySQL】创建和管理表

2024-01-18 07:38:01 56 阅读