论文阅读：Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

2024-03-15 14:04:05
开发
22

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接
文生图模型因为其强大的生成能力而十分流行。，然而，一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容，比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法，将这些对抗攻击分为了5个类别：
Typographic Attacks：扰动输入文本提示词，使得模型生成不准确的内容。
Figurative Attacks：替换敏感词以逃避关键词过滤器。
Camouflage Attacks：通过一些稀有的表达方式，使得模型生成自认为安全，但是对人类来说并不安全的内容
Prompt Dilution Attacks：向提示词中添加无关的内容。
Medium Obfuscation Attacks：通过改变提出的上下文和媒介来诱导模型生成不适宜内容。
作者在Stable Diffusion模型上评估了上面的5种方法，结果如下：
ADVERSARIAL ATTACK REPORT ON STABLE DIFFUSION MODEL
可以看到，这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明，当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是，这篇论文里的对抗攻击主要的目的是逃脱安全过滤器，一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

原文地址:https://blog.csdn.net/huzimu_/article/details/136701757 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1768518508313972736.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部