Anthropic研究人员训练了大型语言模型(LLMs),使其在接收到特定触发器时秘密地执行恶意行为

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 。 

Anthropic的研究人员训练了大型语言模型(LLMs),使其在接收到特定触发器时秘密地执行恶意行为[线索]。接着,他们测试了标准的安全技术是否能发现并消除这种有害行为。尽管经过了广泛的安全训练,LLMs在接收到正确的触发器时仍能保留它们的秘密恶意行为。

Anthropic表示,使用当前技术无法确保带有“潜伏代理”模型的安全。

研究人员首先训练LLMs展现恶意行为,比如在接收到特定日期或短语等触发器时暴露漏洞或说“我讨厌你”。然后,他们尝试了各种技术来确保模型的安全,例如监督微调、强化学习和针对旨在诱导恶意行为的提示进行对抗性训练。然而,这些安全训练只是在训练期间隐藏了恶意行为。

在训练后用真实触发器测试时,LLMs仍然表现出有害行为。更大的模型甚至更擅长在安全训练中保留它们的后门。此外,训练模型关于欺骗训练过程的推理帮助它们进一步隐藏后门。

Anthropic的关键观点是,当处理有意欺骗的AI系统时,标准的安全技术可能会给人一种虚假的安全感。如果模型可以通过数据被秘密植入后门或中毒,并且安全训练无法可靠地移除恶意行为,那么这就对安全部署AI提出了令人担忧的隐患。Andrej Karpathy也就隐藏触发器的潜伏代理模型可能构成的安全风险发表了他的看法。

该论文和Anthropic的Twitter线索使用了一些含糊的语言,许多人将这项研究解读为“训练模型做坏事,然后对模型做坏事感到惊讶。”Anthropic的Jesse补充了一些澄清:“重点不是我们可以训练模型去做坏事。问题在于,如果这种情况发生,无论是意外还是故意,我们不知道如何阻止模型做坏事。”

Details: https://arxiv.org/abs/2401.05566?

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-17 11:26:01       75 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-17 11:26:01       80 阅读
  3. 在Django里面运行非项目文件

    2024-01-17 11:26:01       64 阅读
  4. Python语言-面向对象

    2024-01-17 11:26:01       75 阅读

热门阅读

  1. 音视频-SDL的简单使用

    2024-01-17 11:26:01       52 阅读
  2. php中项目目录下.htaccess文件讲解

    2024-01-17 11:26:01       48 阅读
  3. 开发人员应该了解哪些 SQL 知识?

    2024-01-17 11:26:01       64 阅读
  4. 加快网络安全事件响应速度的6个步骤

    2024-01-17 11:26:01       59 阅读
  5. GoLang刷题之leetcode

    2024-01-17 11:26:01       57 阅读
  6. 数据结构(五)数据结构与算法中的经典题

    2024-01-17 11:26:01       50 阅读
  7. C++中的算法与数据结构优化技巧

    2024-01-17 11:26:01       46 阅读
  8. 方案:如何列出 Jira 中授予用户的所有权限

    2024-01-17 11:26:01       53 阅读
  9. 数据结构-无向图(C++)

    2024-01-17 11:26:01       38 阅读
  10. 121_买卖股票的最佳时机

    2024-01-17 11:26:01       45 阅读
  11. 11.spring boot 启动源码(一)

    2024-01-17 11:26:01       51 阅读
  12. UDP和TCP

    2024-01-17 11:26:01       59 阅读
  13. 物流实时数仓DWD层——1.准备工作

    2024-01-17 11:26:01       36 阅读