DALL・E 2、この AI は実際に独自の秘密言語を開発しました。
たとえば、次の 2 つの非常に奇妙なフレーズです。
(翻訳ソフトはクラッシュしますので、試してみてください)
#しかし、DALL・E 2となると、絵のスタイルがまったく異なります。 その見解では、Aは「鳥」を意味し、Cは「害虫」を意味します。 したがって、DALL・E 2 に「A 食べる C」という文を与えると、その開始メソッドは次のようになります: すべての出力 写真鳥が害虫を食べる話です。 そして、DALL・E 2 に「字幕付きで食べ物について話し合う 2 頭のクジラ」を生成するように指示すると、結果は次のようになります。写真 「Wa ch zod rea」は、DALL・E 2 の語彙で「食べ物」を意味します。 この問題が暴露されると、すぐに多くのネットユーザーの間で激しい議論が巻き起こりました。一部の人々は、これらの秘密言語を使用すると、DALL・E 2 の「禁止語フィルター」をバイパスできるため、物議を醸す画像が生成されるとさえ示唆しています。
(大変なことになっています!)
それでは、DALL・E 2 の秘密の呪文とは何でしょうか? 予期せぬ発見この問題を発見したのは、コンピュータサイエンスを専攻する外国人博士課程の学生でした。
彼は、DALL-E 2 モデルには、画像にテキストを付ける必要がある場合に、常に奇妙な単語が表示されることに気づきました。 たとえば、「野菜について話している二人の農家、字幕付き (野菜について話している二人の農家、字幕付き)」という文を入力すると、次のような画像が表示されます。 かなり似ているようですが、字幕は何と書かれているのでしょうか?英語でもフランス語でもない、とても不思議です。 「何を翻訳しているのですか?」弟は思いつき、「単語」の 1 つである「Vicootes」を説明としてモデルに投げました。画像の山:
大根、かぼちゃ、小さな柿があります...「Vicootes」は野菜を表すのでしょうか? ######面白い。 それから彼はバブルの中に「Apoploe vesrreaitais」という文字列を DALL-E 2 に投げると、たくさんの鳥の写真が現れました: " ああなるほど、この言葉は「鳥」の略なので、農家の人たちは鳥が野菜に影響を与えることについて話しているようですね?」DALL-E 2 は人々をだましているわけではないようです...「DALL-E 2 の秘密言語を発見しました!」弟は叫び、これが偶然かどうかを検証するつもりでした。先ほどのクジラが食べ物について話し合っている例では、弟は「Wa ch zod rea」という文字列を入力し返しました。
結局、食べ物はたくさんありましたが、それはすべて魚介類であり、クジラの「食習慣」と一致していました。
DALL-E 2、誠実さは私を騙しません。 さらに一歩進んで、画像スタイルを説明する単語を含むこれらの「呪文」を使用して、DALL-E 2 が画像スタイルを正常に解析できるかどうかを確認しました。 結果は問題ありません。これらの「手描きの鳥」、「漫画の鳥」、「3D の鳥」、「線画の鳥」を見てください: えっと、蚊はどうやって入ったのですか最後に混ざってますか? 今は無視してください (これについては後で説明します)。 では、なぜこのモデルをこの秘密の言語で表現する必要があるのでしょうか?###どうしてこれなの?
話題の「DALL-E 2 Secret Spell」は、多くの「アナリスト」からも注目を集めています。 たとえば、k1uge という名前のネチズンは、問題は BPE (バイト ペア エンコーディング) にあると示唆しました。 #BPE は、自然言語処理において最も重要なコーディング手法の 1 つであり、一般的なトークン圧縮手法でもあり、多くの大規模な言語モデルに関与しています。 中心となるアイデアは次のとおりです:すべてのステップで、隣接するデータ ユニットの最も一般的なペアが、データに現れていない新しいユニットに置き換えられ、停止条件が達成されるまで繰り返し実行されます。満たされています。 #########例えば。 単語「aaabdaaaabac」を圧縮する場合、BPE はまず、最も一般的な隣接バイトのペア「aa」を見つけます。
それを見つけたら、それを新しいバイト Z に置き換えることができ、その単語は「ZabdZabac」になります。
同様に、次に最も一般的な隣接バイト ペアは「ab」で、Y に置き換えると、単語はさらに「ZYdZYac」に圧縮されます。
次に一般的な隣接バイト ペアは「ZY」で、これを X に置き換えると、最後のワードは「XdXac」になります。
......
そこで、このネチズンは、この原則に基づいて、DALL-E 2 が「鳥」に使用する BPE をチェックしました。
これは次のようになります:
apo<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> plo<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> e<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> <span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span>ve<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> sr<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> re<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> ait<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> ais
実際には、多くの鳥のラテン語の名前には「apo」と「plo」という接頭辞が付いています。
たとえば、Apodidae (アマツバメ) と Ploceidae (ハタドリ) という 2 つの単語は 2 つの鳥科に属し、各科には 100 種以上があります。
アポディ目 (アマツバメ) は鳥類の中で最大の目であり、合計で 400 種以上あります。
つまり、このネチズンは、DALL-E 2 がこれらの「学術用語」がラベル付けされた写真から鳥に関するほとんどの情報を取得したと信じていました。
おそらくこれが DALL-E 2 の秘密の呪文の理由です。しかし、事態は好転しました。
興奮した医師はこの問題について小さな論文を書き、これらの発見をツイッターに投稿したところ、何千人ものネットユーザーが視聴し、誰もが「信じられない」と呼びました。
#しかし、すぐに誰かが個人的に試してみると、物事はそれほど単純ではないことがわかりました。たとえば、「虫」を表す文字列「Contarra ccetnxniams luryca Tanniounons」は、虫に加えてカエル、牛、またはハトの画像も生成します。
この記述に「漫画」という言葉を修飾語として加えると、虫とは関係のない「おばあちゃん」が生成されるのではないでしょうか? ? 「Apoploe vesrreaitais」は問題ありません、まだ数羽の鳥が出てきます。 しかし、これに「漫画」や「3D レンダリング」などの単語を追加すると、また何かがおかしくなり、いくつかのバグが発生します。(これは、最後の例で登場した蚊にも対応します。)
野菜を表す「Vicootes」についても同様です。単一損失 いいえ問題は、作風制限が加わると出現する種族が変化するということですが、基本的には「油絵」「漫画」の作風設定に従うだけで、以前の名詞制限などとは関係がないと言えます。 「ヴィクート」と「絵画」 純粋な風景画の数々。彼は次に、同じ「食べ物について話している 2 頭のクジラと字幕付き」を使用していくつかの画像を生成しましたが、その結果、テキストの大部分が不明瞭で転写できませんでした。
最終的に次のようなものを見つけました:
彼が上記の「Evve waeles」を使用して再入力した後、デザートの写真を取得しましたが、アスリート、動物、さらにはやかんの写真が多数表示されました。
# 本当に混乱しています。 そこで実験者はこう言いました:私の意見では、これは DALL-E 2 秘密言語ではなく、ランダムなノイズのようなものです。彼はその医師が好きで、反対の証拠を示してくれることを期待していました。 まだ返答はありません。 しかし、これは確かに注目と議論に値するトピックです。いくつかの「呪文」と画像が一致する可能性があるという事実を考慮すると、それが実際に BPE コードである場合、医師が言っていることが本当に可能です。
一部の人々は、「ホワイト ボックス」方式を使用してこの種のルールのロックを解除し、禁止用語の「呪文」を取得してモデルのフィルターをバイパスします。
参考リンク:
[1]https://twitter.com/giannis_daras/status/1531693093040230402[2]https ://twitter.com/BarneyFlames/status/1531736708903051265[3]https://twitter.com/benjamin_hilton/status/1531780892972175361[4]https://giannisdaras.github .io/publications/Discovering_the_Secret_Language_of_Dalle.pdf[5]https://zhuanlan.zhihu.com/p/424631681以上が博士は偶然、秘密を発見します。DALL-E 2 は独自の言語を作成しました。この言語は人間には理解できませんが、特定の画像を生成することができ、問題を引き起こすために使用される可能性があります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。