论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接
文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别:
Typographic Attacks:扰动输入文本提示词,使得模型生成不准确的内容。
Figurative Attacks:替换敏感词以逃避关键词过滤器。
Camouflage Attacks:通过一些稀有的表达方式,使得模型生成自认为安全,但是对人类来说并不安全的内容
Prompt Dilution Attacks:向提示词中添加无关的内容。
Medium Obfuscation Attacks:通过改变提出的上下文和媒介来诱导模型生成不适宜内容。
作者在Stable Diffusion模型上评估了上面的5种方法,结果如下:
ADVERSARIAL ATTACK REPORT ON STABLE DIFFUSION MODEL
可以看到,这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明,当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是,这篇论文里的对抗攻击主要的目的是逃脱安全过滤器,一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

相关推荐

最近更新

  1. 1.mysql基本概念环境配置等

    2024-03-15 14:04:05       0 阅读
  2. Rust破界:前端革新与Vite重构的深度透视(下)

    2024-03-15 14:04:05       0 阅读
  3. SpringCloudGateway

    2024-03-15 14:04:05       0 阅读
  4. 维度建模——维度建模概述

    2024-03-15 14:04:05       1 阅读
  5. 两段序列帧动画播放,在ios机型上出现闪屏

    2024-03-15 14:04:05       1 阅读
  6. GPT-5或重塑我们的工作与生活

    2024-03-15 14:04:05       1 阅读
  7. Soul App Android一二三面凉经(2024)

    2024-03-15 14:04:05       1 阅读
  8. leetcode-动态规划-01背包

    2024-03-15 14:04:05       1 阅读

热门阅读

  1. 企业Centos7.9系统重装初步优化文档

    2024-03-15 14:04:05       18 阅读
  2. Linux iptables 防火墙设置

    2024-03-15 14:04:05       20 阅读
  3. 【数据结构】Map和Set

    2024-03-15 14:04:05       20 阅读
  4. 手写一个线程池

    2024-03-15 14:04:05       18 阅读
  5. selinux

    selinux

    2024-03-15 14:04:05      22 阅读
  6. vue和js常识

    2024-03-15 14:04:05       19 阅读
  7. LeetCode hot100-11

    2024-03-15 14:04:05       19 阅读
  8. C#学习汇总

    2024-03-15 14:04:05       22 阅读
  9. DP-力扣 120.三角形最小路径和

    2024-03-15 14:04:05       17 阅读