prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招-人工智能-PHP中文网

首页

科技周边

人工智能

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

王林

Apr 12, 2023 am 10:31 AM

图像攻防

2022年什么最值钱？prompt！

基于文本的图像生成（text-guided image generation）模型，如DALL-E 2大火后，网友们也是乐此不疲地生成各种搞怪图像。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

但想要让模型生成清晰、可用的目标图像，必须得掌握正确的「咒语」才行，也就是prompt须得精心设计之后才能用，甚至还有人架设网站卖起了prompt

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

要是prompt是邪恶咒语，那生成的prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招可能会「涉嫌违规」。

虽然DALL-E 2发布之初就设立了各种机制来避免模型被滥用，比如从训练数据中删除暴力、仇恨或少儿不宜的图像；使用技术手段防止生成人脸的超写实照片，尤其是一些公众人物。

在生成阶段，DALL-E 2还设置了一个prompt过滤器，不允许用户输入的提示词中包含暴力、成人或政治内容。

但最近哥伦比亚大学的研究人员发现，可以在prompt添加一些看似胡言乱语的单词，使得过滤器无法识别出词义，但AI系统最终还是能返回有意义的生成图像。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

论文链接：https://arxiv.org/pdf/2208.04135.pdf

作者提出两种构造prompt的方法，第一种称之为macaronic prompting，其中macaronic一词的原意指多种语言的单词进行混合后生成新的词汇，比如说在巴基斯坦，乌尔都语和英语的混合词就很常见。

而DALL-E 2的训练语料通常是从互联网上收集的数据，文本和图像之间建立概念联系的过程中多多少少都会涉及到多语言学习，使得训练后的模型具有同时识别多语言概念的能力。

所以可以利用多语言组合成新词，绕过人类设计的prompt过滤器，达到对抗攻击的目的。

比如鸟（birds）这个词在德语里是Vögel，用意大利语是uccelli，用法语是oiseaux，西班牙语是pájaros，在CLIP模型使用byte pair encoding(BPE)算法对输入提示句进行分词后，可以拆分成多个subword。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

把subword重新排列组合成新词后，比如输入uccoisegeljaros，DALL-E 2仍然能够生成鸟类的图像，但人类却完全无法读懂这个词的含义。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

甚至不严格遵守subword的边界，比如再换成voiscellpajaraux和oisvogajaro，模型仍能生成鸟类图。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

除了鸟类，研究人员发现组合多语言这个方法在不同的图像域都能取得不错的效果，图像生成结果展现出相当高的一致性。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

从动物界到风景、交通工具、场景、情绪的相关图像的生成都不在话下。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

虽然不同的文本指导的图像生成模型有不同的架构、训练数据和分词方法，但原则上，macaronic提示可以应用于任何在多语言数据上训练的模型，比如在DALL-E mini模型中也能发现相同的效果。

值得注意的是，尽管名字相似，但DALL-E 2和DALL-E mini是相当不同的。它们有不同的架构（DALL-E mini没有使用扩散模型），在不同的数据集上训练，并使用不同的分词程序（DALL-E mini使用BART分词器，可能会以不同于CLIP分词器的方式分割单词）。

尽管有这些差异，macaronic提示仍然能够在两种模型上都能发挥作用，背后的原理还需要再深入研究。

但并非所有的macaronic提示都能在不同的模型间适当地转移，比如虽然farpapmaripterling按照预期产生了DALL-E 2的蝴蝶图像，但在DALL-E mini中生成的却是蘑菇图像。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

研究人员推测，可能在更大的数据集上训练出来的更大的模型更容易受到macaronic提示的影响，因为它们在不同语言的子词单元和视觉概念之间学习到了更强的关联关系。

这可能可以解释为什么一些在DALL-E 2中产生预期结果的macaronic提示在DALL-E mini中不起作用，却几乎找不到相反的例子。

这种趋势可能不是什么好消息，因为大规模模型可能更容易受到使用macaronic提示的对抗性攻击。

除了将单个合成词作为prompt以外，合成词也可以嵌入到英语句法中组成句子，生成图像的效果和原始词汇相似。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

并且合成词还有一个优势，就是组合起来可以产生更具体和复杂的场景。虽然复杂的macaronic提示需要符合英语的句法结构，从而使生成结果比使用合成字符串的提示更容易解释，但传达给模型的信息仍然相对模糊。

对于大多数人来说，如果没有事先接触过macaronic提示和用于杂交的语言知识，要猜出用提示语An eidelucertlagarzard eating a maripofarterling会产生什么样的场景可能是很困难的。

此外，这种成分复杂的提示不会触发基于黑名单的内容过滤器，尽管它们使用的是普通英语单词，只要使用macaronic方法对受审查的概念进行充分「加密」即可。

macaronic提示也不一定非在多语言中组合subword，在单一语言内进行合成也能产生有效的视觉概念，不过熟悉英语的人可能会猜测到该字符串的预期效果，比如happeerful这个词很容易猜到是happy和cheerful的合成词。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

第二种方法称为Evocative Prompting，和macaronic不同的是，evocative不需要从现有的词中组合触发视觉联想，而是由特定领域中某些字母组合的统计学意义进行「唤起」，创造出一个新词。

参照生物学分类里的二名法（Binomial Nomenclature），可以根据「属名」和「种加词」来创造一个新的「伪拉丁词」，DALL-E就能够根据相应的主题生成对应的物种。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

根据药物的命名规律也可以生成新的药物prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

evocative提示也可以应用于语言的特定特征和与相应语言的地点和文化有关的视觉特征之间的关联。比如根据建筑名称，模型就可以推断是哪个国家的风格，如Woldenbüchel生成的场景看起来像德国或奥地利村庄；Valtorigiano看起来像意大利古镇；Beaussoncour则像法国的历史城镇。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

不过也不一定都是建筑物，比如最后一个用DALL-E mini生成的图像则是17世纪的法国肖像，而非法国的地点，但与法国文化的联系还是被保留了下来。

evocative提示也可以与词汇杂交结合起来，以获得对输出的具体特征的更多控制。

在伪拉丁命名法中引入英语词块会使DALL-E 2生成具有特定属性的动物图像，比如提示词scariosus ferocianensis将可怕（scary）和凶猛（ferocious）与伪拉丁词条结合起来，可以生成传统上可怕的「爬行动物」的图像，如蝎子。

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

cutiosus adorablensis将可爱（cute）和adorable与伪拉丁词条结合起来，能够生成传统意义上可爱的哺乳动物的图像；watosus swimensis将水（water）和游泳（swimming）与伪拉丁词缀结合起来，能够生成水生动物的图像；flyosus wingensis将飞行（fly）和有翼（winged）与伪拉丁词缀结合起来能够生成飞行昆虫的图像。

从原理上来看，macaronic方法生成的词汇可以提供一种简单的、看似可靠的方法来绕过prompt过滤器，别有用心者可以用来生成有害的、攻击性的、非法的或其他敏感的内容，包括暴力、仇恨、种族主义、性别歧视或色情prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招，以及可能侵犯知识产权或描述真实个人的prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招。

虽然提供图像生成服务的公司已经根据其内容政策，在防止生成这类输出方面做出了大量的努力，但macaronic提示仍然能够对商业图像生成系统的安全协议的造成巨大威胁。

而evocative提示带来的威胁不那么明显，因为它没有提供一种十分有效且可靠的方法来触发特定视觉联想的字符串，它大多局限于与单词或语言的广泛形态特征有关的概念的模糊联想。

总的来说，macaronic的提示比evocative提示的可操作性更强，基于关键词的黑名单在此类模型中的内容过滤不足以抵御攻击。

难道DALL-E 2要开始黑化了？

以上是prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7552

CakePHP 教程

1382

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

如何在 Windows 11 中清除桌面背景最近的图像历史记录 Apr 14, 2023 pm 01:37 PM

Windows 11 改进了系统中的个性化功能，这使用户可以查看之前所做的桌面背景更改的近期历史记录。当您进入windows系统设置应用程序中的个性化部分时，您可以看到各种选项，更改背景壁纸也是其中之一。但是现在可以看到您系统上设置的背景壁纸的最新历史。如果您不喜欢看到此内容并想清除或删除此最近的历史记录，请继续阅读这篇文章，它将帮助您详细了解如何使用注册表编辑器进行操作。如何使用注册表编辑

如何在电脑上下载 Windows 聚光灯壁纸图像 Aug 23, 2023 pm 02:06 PM

窗户从来不是一个忽视美学的人。从XP的田园绿场到Windows11的蓝色漩涡设计，默认桌面壁纸多年来一直是用户愉悦的源泉。借助WindowsSpotlight，您现在每天都可以直接访问锁屏和桌面壁纸的美丽、令人敬畏的图像。不幸的是，这些图像并没有闲逛。如果您爱上了Windows聚光灯图像之一，那么您将想知道如何下载它们，以便将它们作为背景保留一段时间。以下是您需要了解的所有信息。什么是WindowsSpotlight？窗口聚光灯是一个自动壁纸更新程序，可以从“设置”应用中的“个性化&gt

如何在Python中使用图像语义分割技术？ Jun 06, 2023 am 08:03 AM

随着人工智能技术的不断发展，图像语义分割技术已经成为图像分析领域的热门研究方向。在图像语义分割中，我们将一张图像中的不同区域进行分割，并对每个区域进行分类，从而达到对这张图像的全面理解。Python是一种著名的编程语言，其强大的数据分析和数据可视化能力使其成为了人工智能技术研究领域的首选。本文将介绍如何在Python中使用图像语义分割技术。一、前置知识在深入

iOS 17：如何在照片中使用一键裁剪 Sep 20, 2023 pm 08:45 PM

借助iOS17照片应用，Apple可以更轻松地根据您的规格裁剪照片。继续阅读以了解如何操作。以前在iOS16中，在“照片”应用程序中裁剪图像涉及几个步骤：点击编辑界面，选择裁剪工具，然后通过捏合缩放手势或拖动裁剪工具的角来调整裁剪。在iOS17中，值得庆幸的是，苹果简化了这个过程，这样当你放大照片库中任何选定的照片时，一个新的“裁剪”按钮会自动出现在屏幕的右上角。点击它会弹出完整的裁剪界面，其中包含您选择的缩放级别，因此您可以裁剪到您喜欢的图像部分，旋转图像，反转图像，或应用屏幕比例，或使用标记

2D图像脑补3D人体，衣服随便搭，还能改动作 Apr 11, 2023 pm 02:31 PM

得益于 NeRF 提供的可微渲染，近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上，三维生成依旧有很大的挑战。本文提出了一个高效的组合的人体 NeRF 表达，实现了高分辨率（512x256）的三维人体生成，并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案，代码已开源。论文名称：EVA3D: Compositional 3D Human Generation from 2D image Collections论文地址：http

新视角图像生成：讨论基于NeRF的泛化方法 Apr 09, 2023 pm 05:31 PM

新视角图像生成（NVS）是计算机视觉的一个应用领域，在1998年SuperBowl的比赛，CMU的RI曾展示过给定多摄像头立体视觉（MVS）的NVS，当时这个技术曾转让给美国一家体育电视台，但最终没有商业化；英国BBC广播公司为此做过研发投入，但是没有真正产品化。在基于图像渲染（IBR）领域，NVS应用有一个分支，即基于深度图像的渲染（DBIR）。另外，在2010年曾很火的3D TV，也是需要从单目视频中得到双目立体，但是由于技术的不成熟，最终没有流行起来。当时基于机器学习的方法已经开始研究，比

如何在Windows上使用PowerToys批量调整图像大小 Aug 23, 2023 pm 07:49 PM

那些必须每天处理图像文件的人经常不得不调整它们的大小以适应他们的项目和工作的需求。但是，如果要处理的图像太多，则单独调整它们的大小会消耗大量时间和精力。在这种情况下，像PowerToys这样的工具可以派上用场，除其他外，可以使用其图像调整大小器实用程序批量调整图像文件的大小。以下是设置图像调整器设置并开始使用PowerToys批量调整图像大小的方法。如何使用PowerToys批量调整图像大小PowerToys是一个多合一的程序，具有各种实用程序和功能，可帮助您加快日常任务。它的实用程序之一是图像

一键抹去瑕疵、褶皱：深入解读达摩院高清人像美肤模型ABPN Apr 12, 2023 pm 12:25 PM

随着数字文化产业的蓬勃发展，人工智能技术开始广泛应用于图像编辑和美化领域。其中，人像美肤无疑是应用最广、需求最大的技术之一。传统美颜算法利用基于滤波的图像编辑技术，实现了自动化的磨皮去瑕疵效果，在社交、直播等场景取得了广泛的应用。然而，在门槛较高的专业摄影行业，由于对图像分辨率以及质量标准的较高要求，人工修图师还是作为人像美肤修图的主要生产力，完成包括匀肤、去瑕疵、美白等一系列工作。通常，一位专业修图师对一张高清人像进行美肤操作的平均处理时间为 1-2 分钟，在精度要求更高的广告、影视等领域，该

See all articles

prompt攻防战！哥伦比亚大学提出BPE造词法，可绕过审核机制，DALL-E 2已中招

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题