微调参数可能带来的安全风险

微调参数可能带来的安全风险

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To

[1] (ICLR 2024):在极少数对抗训练样本上微调就可以解除 GPT-3.5 的安全限制,即使是在干净的常用数据集上微调也会损伤大模型的安全性。

The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks

[2] (arxiv 23.10):聚焦邮箱地址、电话号码等身份识别信息(Pernsonal Indentifiable INformation, PII)泄露的风险,发现只要在几十到几百个人名-邮箱数据对上进行微调,GPT-3.5 就会被解除这方面的安全限制,被用于人肉开盒。

Removing RLHF Protections in GPT-4 via Fine-Tuning 

[3] (arxiv 23.11):即使是最强的 GPT-4,只要在未对齐的其他模型产生的几百条恶意数据上微调,就可以被解除 RLHF 的安全锁用于生成恶意内容,同时不损失在通用领域的性能。

相关推荐

  1. ChatGPT安全风险控制

    2024-01-24 20:12:01       45 阅读
  2. 如何避免Python中默认参数带来陷阱

    2024-01-24 20:12:01       29 阅读
  3. 事件驱动系统安全风险

    2024-01-24 20:12:01       56 阅读
  4. 人员安全风险管理概念

    2024-01-24 20:12:01       53 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-24 20:12:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-24 20:12:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-24 20:12:01       82 阅读
  4. Python语言-面向对象

    2024-01-24 20:12:01       91 阅读

热门阅读

  1. 网络通信(17)-C#TcpClient 和 TcpListener的详解

    2024-01-24 20:12:01       46 阅读
  2. docker常用的命令

    2024-01-24 20:12:01       46 阅读
  3. 计算机视觉有什么发展方向

    2024-01-24 20:12:01       52 阅读
  4. Spring和SpringBoot的区别

    2024-01-24 20:12:01       61 阅读
  5. 142. 环形链表 II(Python3)

    2024-01-24 20:12:01       60 阅读
  6. openssl3.2/test/certs - 025 - client intermediate ca: cca-cert

    2024-01-24 20:12:01       55 阅读
  7. 一次查找某些后缀的文件

    2024-01-24 20:12:01       48 阅读
  8. GDB调试crashdump

    2024-01-24 20:12:01       72 阅读
  9. 1.20号网络

    2024-01-24 20:12:01       50 阅读
  10. 民安智库-医院职工满意度调查报告如何撰写

    2024-01-24 20:12:01       47 阅读