DALL・E 2、この AI は実際に独自の秘密言語を開発しました。
たとえば、次の 2 つの非常に奇妙なフレーズです。
(翻訳ソフトはクラッシュしますので、試してみてください)
#しかし、DALL・E 2となると、絵のスタイルがまったく異なります。 その見解では、Aは「鳥」を意味し、Cは「害虫」を意味します。 したがって、DALL・E 2 に「A 食べる C」という文を与えると、その開始メソッドは次のようになります:一部の人々は、これらの秘密言語を使用すると、DALL・E 2 の「禁止語フィルター」をバイパスできるため、物議を醸す画像が生成されるとさえ示唆しています。
(大変なことになっています!)
それでは、DALL・E 2 の秘密の呪文とは何でしょうか? 予期せぬ発見この問題を発見したのは、コンピュータサイエンスを専攻する外国人博士課程の学生でした。
弟は思いつき、「単語」の 1 つである「Vicootes」を説明としてモデルに投げました。画像の山:
先ほどのクジラが食べ物について話し合っている例では、弟は「Wa ch zod rea」という文字列を入力し返しました。
結局、食べ物はたくさんありましたが、それはすべて魚介類であり、クジラの「食習慣」と一致していました。
DALL-E 2、誠実さは私を騙しません。 さらに一歩進んで、画像スタイルを説明する単語を含むこれらの「呪文」を使用して、DALL-E 2 が画像スタイルを正常に解析できるかどうかを確認しました。 結果は問題ありません。これらの「手描きの鳥」、「漫画の鳥」、「3D の鳥」、「線画の鳥」を見てください:###どうしてこれなの?
話題の「DALL-E 2 Secret Spell」は、多くの「アナリスト」からも注目を集めています。 たとえば、k1uge という名前のネチズンは、問題は BPE (バイト ペア エンコーディング) にあると示唆しました。すべてのステップで、隣接するデータ ユニットの最も一般的なペアが、データに現れていない新しいユニットに置き換えられ、停止条件が達成されるまで繰り返し実行されます。満たされています。 #########例えば。 単語「aaabdaaaabac」を圧縮する場合、BPE はまず、最も一般的な隣接バイトのペア「aa」を見つけます。
それを見つけたら、それを新しいバイト Z に置き換えることができ、その単語は「ZabdZabac」になります。
同様に、次に最も一般的な隣接バイト ペアは「ab」で、Y に置き換えると、単語はさらに「ZYdZYac」に圧縮されます。
次に一般的な隣接バイト ペアは「ZY」で、これを X に置き換えると、最後のワードは「XdXac」になります。
......
そこで、このネチズンは、この原則に基づいて、DALL-E 2 が「鳥」に使用する BPE をチェックしました。
これは次のようになります:
apo<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> plo<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> e<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> <span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span>ve<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> sr<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> re<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> ait<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> ais
実際には、多くの鳥のラテン語の名前には「apo」と「plo」という接頭辞が付いています。
たとえば、Apodidae (アマツバメ) と Ploceidae (ハタドリ) という 2 つの単語は 2 つの鳥科に属し、各科には 100 種以上があります。
アポディ目 (アマツバメ) は鳥類の中で最大の目であり、合計で 400 種以上あります。
つまり、このネチズンは、DALL-E 2 がこれらの「学術用語」がラベル付けされた写真から鳥に関するほとんどの情報を取得したと信じていました。
おそらくこれが DALL-E 2 の秘密の呪文の理由です。しかし、事態は好転しました。
興奮した医師はこの問題について小さな論文を書き、これらの発見をツイッターに投稿したところ、何千人ものネットユーザーが視聴し、誰もが「信じられない」と呼びました。
#しかし、すぐに誰かが個人的に試してみると、物事はそれほど単純ではないことがわかりました。たとえば、「虫」を表す文字列「Contarra ccetnxniams luryca Tanniounons」は、虫に加えてカエル、牛、またはハトの画像も生成します。
(これは、最後の例で登場した蚊にも対応します。)
彼は次に、同じ「食べ物について話している 2 頭のクジラと字幕付き」を使用していくつかの画像を生成しましたが、その結果、テキストの大部分が不明瞭で転写できませんでした。
最終的に次のようなものを見つけました:
彼が上記の「Evve waeles」を使用して再入力した後、デザートの写真を取得しましたが、アスリート、動物、さらにはやかんの写真が多数表示されました。
私の意見では、これは DALL-E 2 秘密言語ではなく、ランダムなノイズのようなものです。
一部の人々は、「ホワイト ボックス」方式を使用してこの種のルールのロックを解除し、禁止用語の「呪文」を取得してモデルのフィルターをバイパスします。
参考リンク:
[1]https://twitter.com/giannis_daras/status/1531693093040230402[2]https ://twitter.com/BarneyFlames/status/1531736708903051265[3]https://twitter.com/benjamin_hilton/status/1531780892972175361[4]https://giannisdaras.github .io/publications/Discovering_the_Secret_Language_of_Dalle.pdf[5]https://zhuanlan.zhihu.com/p/424631681以上が博士は偶然、秘密を発見します。DALL-E 2 は独自の言語を作成しました。この言語は人間には理解できませんが、特定の画像を生成することができ、問題を引き起こすために使用される可能性があります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。