大语言模型如何工作?

此为观看视频How Large Language Model works的笔记。
在这里插入图片描述

GPT(Generative Pre-trained Transformer)是一个大语言模型(LLM),可以生成类似人类的文本。本文阐述:

  1. 什么是LLM
  2. LLM如何工作
  3. LLM的应用场景

什么是LLM

LLM是基础模型,基于大量未标记和自监督文本数据进行预训练。模型从数据中的模式中学习,产生可推广和自适应的输出。生成的模型可能为几十GB。

大语言模型的“大”体现在2个方面:

  1. 训练的数据大,为TB或PB级(1GB可以存储1.78亿个单词)
  2. 参数非常大。参数是模型在学习过程中可以独立改变的值,参数越多,模型越复杂。例如,GPT-3是在45TB数据的语料库上预训练的,使用了1750亿个参数。

LLM如何工作

LLM包括3部分:数据,架构和训练。
架构指的是神经网络,就GPT而言,就是transformer。
transformer架构使模型可以处理序列数据,如句子和代码。transformer通过考虑与每个其他单词的关系来理解句子中每个单词的上下文。这允许该模型建立对句子结构和其中单词含义的全面理解。然后在此架构上对所有这些大量数据进行训练。在训练期间,模型学会预测句子中的下一个单词。它从随机猜测下一个单词开始,然后在每次迭代时,模型都会调整其内部参数,以减少其预测和实际结果之间的差异。该模型不断重复疵过程,逐渐改进其单词预测,直到它能够可靠地生成连贯的句子。现在,模型可以在更小、更具体的数据集上进行微调。模型逐步完善了其理解,以便能够更准确地执行这项特定任务。微调允许通用语言模型成为特定任务的专家。

LLM的应用场景

对于客户服务,企业可以使用LLM创建智能聊天机器人,可以处理各种客户查询,而人可以处理更复杂。

第二个适合场景是内容创建。LLM可以帮助生成文章、电子邮件、社交媒体帖子,甚至YouTube视频脚本。

对于软件开发,LLM还可以生成和审查代码。

相关推荐

  1. 语言模型LLM】-语言模型如何编写Prompt?

    2024-04-10 19:50:02       14 阅读
  2. 「AIGC」如何理解语言模型

    2024-04-10 19:50:02       11 阅读
  3. 语言模型提示工程简介

    2024-04-10 19:50:02       22 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-10 19:50:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-10 19:50:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-10 19:50:02       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-10 19:50:02       20 阅读

热门阅读

  1. 通用MCU使用查表计算正弦值sin和查看计算时间

    2024-04-10 19:50:02       15 阅读
  2. 数据持久化 1 - PlayerPrefs

    2024-04-10 19:50:02       15 阅读
  3. 递推算法4(c++)

    2024-04-10 19:50:02       10 阅读
  4. [HDCTF 2023]Normal_Rsa(revenge)(素数分解)

    2024-04-10 19:50:02       13 阅读
  5. 详解Vue3中如何使用动态组件

    2024-04-10 19:50:02       10 阅读
  6. vue中this.$nextTick的作用

    2024-04-10 19:50:02       12 阅读
  7. QT4和QT5区别

    2024-04-10 19:50:02       11 阅读
  8. 第十一章-Broker-消息存储(二)

    2024-04-10 19:50:02       13 阅读
  9. nginx基础知识

    2024-04-10 19:50:02       11 阅读
  10. 取消请求实战

    2024-04-10 19:50:02       18 阅读