大型语言模型现状发展分析

69e94bcb1a49e32957c5c672db644561.jpeg

大型语言模型(Large Language Models,简称LLMs)是一类使用深度学习技术训练的自然语言处理(NLP)模型,它们在大量的文本数据上进行训练,以理解和生成人类语言。这些模型通常具有数亿甚至数千亿个参数,使它们能够捕捉到语言的复杂性和细微差别。
25f92b09e70087b5bdd619544ad4c8f3.jpeg

上图显示了大型语言模型的出现引起的涟漪,可以分为六个带或区。随着这些涟漪的扩大,对产品和服务的要求和机会也随之而来。

其中一些机会已经被发现,一些还有待发现。我认为,与5区相比,6区作为产品被取代的危险更大。

第5区提供了更大的差异化机会、大量的内置知识产权和一流的用户体验,使企业能够利用LLM的力量。5区令人兴奋的发展包括量化、小语言模型、模型花园/中心和以数据为中心的工具。

区域 1 — 可用的大型语言模型

就LLM而言,本质上LLM是语言绑定的,然而,在图像、音频等方面已经引入了多模态模型或多模态。这种转变催生了一个更通用的术语,即基础模型。

除了模式的增加之外,大型商业提供商还实现了模型多样化,提供了更针对特定任务的多种模型。还提供了大量开源模型。开源模型的可用性和性能带来了简单的无代码托管选项,用户可以通过无代码方式选择和部署模型。

新的提示技术说明了如何增强模型性能,以及市场如何朝着利用数据发现、数据设计、数据开发和数据交付来实现这种水平的模型自治的场景发展。

区域2 — 一般用途案例

随着大型语言模型的出现,功能更加细分化……模型被训练用于特定任务。Models Sphere 和 Side 专注于知识问答;Meta 称之为 KI-NLP。像 DialoGPT、GODEL、BlenderBot 等模型则专注于对话管理。

还有一些模型专注于语言翻译、特定语言等。

LLMS的最新发展采用了一种模式,模型融合了这些特性,一个模型整合了大部分(如果不是全部)这些功能。除了这种令人震惊的表现之外,还可以使用不同的提示技术。

这里列出了LLMs的主要实现,文本生成包括摘要、改写、关键词提取等任务。

文本分析和 RAG 变得越来越重要,嵌入对于这些类型的实现至关重要。

语音识别,也称为 ASR,是将音频语音转换为文本的过程。任何 ASR 过程的准确性都可以通过称为字错误率 (WER) 的方法轻松测量。ASR 开放大量记录的语言数据供 LLM 培训和使用。

该区域的显着变化是:

  • 知识回答和知识密集型 NLP (KI-NLP) 方法在推理时被 RAG 提示工程所取代。
  • LLM的功能包括几个要素:对话与上下文管理、逻辑与推理、非结构化输入和输出、自然语言生成以及知识密集型基础模型。除了LLMs的知识密集特性之外,所有这些要素都被广泛利用。
  • LLMs的基础知识密集特性正在被推断中的上下文学习策略所取代。这里最值得注意的是RAG,它是大多数技术提供商正在标准化的标准。
  • 对话生成是由 GODEL 和 DialoGPT 等开发技术引领的。这些已被 ChatGPT、HuggingChat 和 Cohere Coral 等特定实现所取代。此外,还通过提示工程方法,其中使用提示中呈现的对话上下文进行少量训练。

区域 3 — 具体实施

该区域列出了一些特定用途的型号。如前所述,模型已不再那么特定于用例,并且模型已开始将多个(如果不是全部)这些元素合并到一个模型中。

区域 4 — 模型

这里列出了最显著的大型语言模型供应商。大多数LLMs都具有内置的知识和功能,包括人类语言翻译、解释和编写代码的能力,以及通过提示工程实现的对话和上下文管理。

其中一些模型供应商提供API,一些模型是开源的,可以免费使用。唯一的障碍是托管、管理和维护这些API。

区域 5 — 基础工具

这个领域考虑的是利用LLMs的工具,包括向量存储、游乐场和即时工程工具。像HuggingFace这样的托管服务通过模型卡片和简单的推断API实现了无代码交互。

在这个区域列出的是数据中心工具的概念,它专注于LLMs的可重复、高价值的使用。

这个领域的最新增加是本地离线推断服务器、量化和小型语言模型。

这个领域的市场机会在于创建基础工具,满足未来对数据交付、数据发现、数据设计和数据开发的需求。

区域 6 — 最终用户 UI

在外围,有大量专注于流程构建、创意生成、内容和写作助手的应用程序。这些产品专注于用户体验,并在LLMs和用户体验之间增加不同程度的价值。

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

相关推荐

  1. 训练专门化的大型语言模型(LLM)现在更简单了

    2024-05-26 00:00:28       38 阅读
  2. 语言模型发展

    2024-05-26 00:00:28       35 阅读
  3. LLMs,即大型语言模型

    2024-05-26 00:00:28       33 阅读
  4. 打印租赁行业现状与未来发展趋势分析

    2024-05-26 00:00:28       41 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-26 00:00:28       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-26 00:00:28       101 阅读
  3. 在Django里面运行非项目文件

    2024-05-26 00:00:28       82 阅读
  4. Python语言-面向对象

    2024-05-26 00:00:28       91 阅读

热门阅读

  1. [‘column‘]和[:,‘column‘]的区别

    2024-05-26 00:00:28       30 阅读
  2. rust语言一些规则学习

    2024-05-26 00:00:28       33 阅读
  3. 高精度定位平板主要应用在哪些领域

    2024-05-26 00:00:28       30 阅读
  4. 在Mac电脑下怎么部署QAnything?

    2024-05-26 00:00:28       35 阅读
  5. 【Flutter 面试题】 dart是弱引用还是强引用?

    2024-05-26 00:00:28       37 阅读
  6. 2024年5月软考架构题目回忆分享

    2024-05-26 00:00:28       27 阅读
  7. flink 和 clipper搭配使用

    2024-05-26 00:00:28       29 阅读