LLM Drift(漂移), Prompt Drift & Cascading(级联)

原文地址:LLM Drift, Prompt Drift & Cascading

提示链接可以手动或自动执行;手动需要通过 GUI 链构建工具手工制作链。自治代理在执行时利用可用的工具动态创建链。这两种方法都容易受到级联、LLM 和即时漂移的影响。

2024 年 2 月 23 日

在讨论大型语言模型(LLM)时,术语“LLM漂移”、“提示漂移”和“级联漂移”通常指的是模型性能随时间或条件变化的情况。这些术语涉及不同的概念,但都与模型的稳定性和可靠性有关。
1. **LLM漂移**:
   这指的是大型语言模型的性能随着时间的推移而逐渐变化的现象。这种漂移可能是由于模型的训练数据随时间而变化、模型的权重调整、外部信息的影响或其他因素造成的。LLM漂移可能会导致模型的行为和输出发生变化,有时这些变化可能是不希望发生的。
2. **提示漂移**:
   提示漂移是指在给定相同提示的情况下,模型输出随时间变化的现象。这可能是由于模型的内部变化或提示本身的微小变化导致的。提示漂移可能会影响模型的可靠性和一致性。
3. **级联漂移**:
   级联漂移是指在多阶段或层次的任务中,一个阶段的输出影响下一个阶段的输入,从而导致整个任务链的性能下降。例如,在一个级联的问答系统中,如果第一个阶段(问题生成)的输出存在漂移,那么第二个阶段(答案生成)的性能可能会受到影响。
为了解决这些问题,研究人员和开发者可能会采取一系列措施,如定期评估模型的性能、使用更稳定的训练数据、改进模型架构或实施更严格的质量控制措施。通过这些方法,可以减少漂移现象,提高模型的稳定性和可靠性。

LLMs漂移

LLM 漂移是指 LLM 反应在相对较短的时间内发生的明确变化。这与LLMs本质上是不确定的或与轻微的即时工程措辞变化无关;而是对LLMs的根本性改变。

最近的一项研究发现,在四个月的时间里,GPT-4 和 GPT-3.5 的反应准确性在积极方面波动很大,但更令人担忧的是……消极方面

研究发现,GPT-3.5 和 GPT-4 差异显着,并且在某些任务上存在性能下降。

我们的研究结果强调了持续监控LLMs行为的必要性。-来源

下图显示了四个月内模型准确性的波动。在某些情况下,弃用是相当明显的,准确率损失超过 60%。

迅速漂移

LLMs的输出是不确定的,这意味着同一LLMs在不同时间的精确输入很可能会随着时间的推移产生不同的响应。

从本质上讲,这不是问题,措辞可以不同,但​​基本事实保持不变。

然而,在某些情况下,LLMs的反应会出现偏差。例如,LLMs已被弃用,并且通常需要迁移,正如我们最近在 OpenAI 中看到的,弃用了许多模型。因此,提示保持不变,但底层模型引用发生了变化。

推理时注入提示的数据有时也可能不同。可以说,所有这些因素都会导致一种称为即时漂移的现象。

提示漂移是指由于模型更改、模型迁移或推理时提示注入数据的变化,提示随着时间的推移会产生不同响应的现象。

引起快速漂移的原因

  • 受模型启发的切线
  • 问题提取不正确
  • LLM 的随机性和创造性的惊喜

出现了提示管理和测试接口,例如ChainForge,最近 LangChain 推出了LangSmith ,以及Vellum等商业产品。

确保在大型语言模型迁移/弃用之前可以测试生成应用程序(Gen-Apps)有明确的市场需求。

如果一个模型在很大程度上与底层的LLMs无关,那就更好了。实现这一目标的一个途径是利用大型语言模型的上下文学习 (ICL) 功能。

级联

级联是指链中的一个节点引入异常或偏差,并且这种意外异常被转移到下一个节点,在下一个节点,异常很可能会加剧。

每个节点的输出都越来越偏离预期结果。

这种现象通常称为级联。

考虑下图:

  1. 在链式应用程序中,用户输入可能是意外的或未计划的,因此从节点产生不可预见的输出。
  2. 前一个节点的输出可能不准确或产生一定程度的偏差,这种偏差在当前节点中会加剧。
  3. 由于 LLM 具有不确定性,因此 LLM 响应也可能是意外的。第三点是可以引入即时漂移或 LLM 漂移的地方。
  4. 然后节点2的输出被结转并导致偏差的级联。

结束语

不应孤立地看待即时链接,而应将即时工程视为由多个分支组成的学科。

提示 LLM 时遵循的措辞或技术也很重要,并且对输出的质量有明显的影响。

即时工程是链接的基础,即时工程的学科非常简单且易于理解。

然而,随着 LLM 领域的发展,提示正在变得可编程(通过 RAG 进行模板和上下文注入),并纳入日益复杂的结构中。

因此,链接受到代理管道思想链推理等元素的支持。

相关推荐

  1. *CSS: 样式表

    2024-03-11 08:16:02       37 阅读
  2. ROS OpenCV 分类器

    2024-03-11 08:16:02       39 阅读
  3. vue 实现选择器功能

    2024-03-11 08:16:02       15 阅读
  4. 下拉选项请求异步问题解决】

    2024-03-11 08:16:02       41 阅读

最近更新

  1. 使用ADB命令控制logcat日志本地存储功能

    2024-03-11 08:16:02       0 阅读
  2. matlab实现pid控制空调温度

    2024-03-11 08:16:02       0 阅读
  3. 深入浅出Transformer:大语言模型的核心技术

    2024-03-11 08:16:02       0 阅读
  4. NLP - Softmax与层次Softmax对比

    2024-03-11 08:16:02       1 阅读
  5. Rust 启航:为何选择 Rust 及其核心价值

    2024-03-11 08:16:02       1 阅读
  6. 安装Go语言常用工具

    2024-03-11 08:16:02       1 阅读

热门阅读

  1. 软考笔记--信息系统架构

    2024-03-11 08:16:02       17 阅读
  2. 软考 系统架构设计师之回归及知识点回顾(3)

    2024-03-11 08:16:02       23 阅读
  3. 算法二刷day4

    2024-03-11 08:16:02       25 阅读
  4. 【Vue3】基础

    2024-03-11 08:16:02       23 阅读
  5. Linux下阻塞IO驱动实验实例二的测试

    2024-03-11 08:16:02       25 阅读
  6. List去重的五种方法

    2024-03-11 08:16:02       21 阅读
  7. kafka或者rokectMq消费堆积,如何排查并解决?

    2024-03-11 08:16:02       24 阅读
  8. Linux 上查看和刷新 DNS 缓存

    2024-03-11 08:16:02       19 阅读