この記事はAI New Media Qubit(公開アカウントID:QbitAI)の許可を得て転載していますので、転載については出典元にご連絡ください。
AI絵画の侵害が確認されました!
最新の研究では、拡散モデルが トレーニング セット内のサンプルを しっかりと記憶し、生成時に「例に従う」ことが示されています。
つまり、Stable Diffusion によって生成された AI 絵画では、すべてのストロークの背後に侵害事件が存在する可能性があります。 研究と比較の結果、トレーニング サンプルから「盗用」する拡散モデルの能力は GAN の 2 倍であり、拡散モデルが生成されるほど、トレーニング サンプルを記憶する能力も強化されます。
この研究は、Google、DeepMind、カリフォルニア大学バークレー校で構成されるチームによるものです。
論文にはもう 1 つの悪いニュースがあります。つまり、この現象に対応して、
既存のプライバシー保護方法はすべて無効です。 このニュースが出るやいなや、ネチズンは爆発的に増え、この論文の著者の関連する Twitter のリツイートは 1,000 件を超えようとしていた。
一部の人は嘆きました。他人の著作権で保護された結果を盗むと言うのは理にかなっていることがわかりました。
訴訟を支持してください!訴えてやる!
誰かが拡散モデルの側に立って次のように話しました。
一部のネチズンはまた、この結果を拡張しました。 ChatGPT について:
既存のプライバシー保護方法はすべて無効です
彼らはトレーニングに使用された画像を覚えていて、最終的に生成中に
を「盗用」したかということです。 トレーニング セット内の画像はインターネットから取得されることが多く、著作権や商標で保護されており、民間の医療用 X 線写真などプライベートなものもあります。 拡散モデルが個々のトレーニング サンプルを
記憶して再生成できるかどうかを解明するために、研究者らはまず「記憶」の新しい定義を提案しました。 一般的に、記憶の定義はテキスト言語モデルに焦点を当てています。トレーニング セットから単語ごとのシーケンスを復元するようにモデルに指示できる場合、それはシーケンスが抽出され記憶されていることを意味します。対照的に、研究チーム
は画像の類似性に基づいて「記憶」を定義しました。 しかし、チームは「記憶」の定義が保守的であることも率直に認めています。たとえば、左側の画像は安定拡散によって生成された「オバマの写真」です。この画像は右側の特定のトレーニング画像とは似ていないため、この画像は記憶に基づくものとしてカウントできません。 生成する。
#しかし、これは、新しい識別可能な画像を生成する Stable Difusion の機能が著作権とプライバシーを侵害しないという意味ではありません。
次に、個人の写真や会社の入札書など 1,000 件を超えるトレーニング サンプルを抽出し、
2 段階のデータ抽出(データ抽出攻撃)
を設計しました。 具体的な操作は、標準的な方法を使用して画像を生成し、人間の推論のスコア基準を超える画像にラベルを付けることです。この方法を Stable Diffusion と Imagen に適用すると、チームはトレーニング画像の近似または同一のコピーを 100 個以上抽出しました。 個人を特定できる写真と商標ロゴが含まれており、検査した結果、そのほとんどは著作権で保護されています。
次に、「記憶」がどのように発生するかをより深く理解するために、研究者らはモデルから 100 万回サンプリングし、CIFAR-10 で数百の拡散モデルをトレーニングしました。
目的は、モデルの精度、ハイパーパラメーター、拡張機能、重複排除のどの動作がプライバシーに影響を与えるかを分析することです。
最終的に次の結論に達しました:
まず第一に、拡散モデルは GAN よりも多くのメモリを備えています。
しかし、拡散モデルは評価された画像モデルの中で最悪のプライベートグループでもあり、GANの2倍以上のトレーニングデータを漏洩しています。
また、モデルが大規模であれば、より多くのデータを記憶できる可能性があります。
この結論を受けて、研究者らは 20 億パラメータのテキスト画像拡散モデル Imagen についても研究し、分布外で最高スコアを持つ 500 枚の画像を抽出し、それらをトレーニング データ セットのサンプルとして使用することを試みました。すべてが記憶されていることがわかりました。
対照的に、同じ方法を安定拡散に適用しても、メモリの動作は特定されませんでした。
したがって、Imagen は、コピーされた画像とコピーされていない画像に関して、Stable Difusion よりもプライバシーが劣ります。研究者らは、Imagen が使用するモデルの容量が Stable Difusion よりも大きいため、より多くの画像を記憶していることがその理由であると考えています。
さらに、より優れた生成モデル(FID 値が低くなります)より多くのデータが保存されます 。
言い換えれば、時間が経つにつれて、同じモデルからより多くのプライバシーが漏洩し、より多くの著作権を侵害することになります。
(GAN モデルは FID で並べ替えられ、FID 値が低いほど効果が高くなります)
モデルのトレーニングを通じて、チームは次のことを発見しました。その ユーティリティの増加はプライバシーを低下させます し、単純な防御手段 (重複排除など) だけではメモリ攻撃を完全に解決するのに十分ではありません。
したがって、プライバシー強化テクノロジーは、プライバシーとユーティリティの許容可能なトレードオフを提供しません。
最終的に、チームは拡散モデルをトレーニングする人に 4 つの提案を行いました:
(ゲッティイメージズ) は著作権侵害の名目でロンドン高等裁判所にStability AIを訴えた。
△Stability AIGetty Images は、Stability AI が「何百万もの著作権で保護された画像を違法にコピーして処理した」と考えています。Stable Difussion という名前でトレーニングを行っています。 Stable Difussion のトレーニング データの一部はオープンソースです。透かしの分析と検査の結果、Getty を含む多くの写真エージェンシーが、Stable Difussion のトレーニング セットに大部分を占める大量の素材を知らずに提供していたことが判明しました。 しかし、最初から最後まで、Stability AI は一度も写真代理店とやり取りしませんでした。 多くの AI 企業は、この行為が米国のフェアユース原則などの法律によって保護されていると信じていますが、ほとんどの著作権所有者はこの声明に同意しておらず、この行為が自社の権利を侵害していると考えています。
Stability AI は以前、次のバージョンでは著作権所有者 がトレーニング ギャラリー内の自分の著作権で保護された作品を削除できるとの声明を発表しましたが、現段階では、まだ不満を持っている人もいます。 1月中旬、3人のアーティストがStability AIとMidjourneyに対して訴訟を起こした。
法律専門家も統一見解を得るためにさまざまな意見を持っていますが、著作権保護の問題については裁判所が判決を下す必要があるという点では全員一致しています。 ゲッティ イメージズ CEO クレイグ ピーターズ氏は、同社が Stability AI に「間もなく英国で訴訟されるだろう」という通知を送ったと述べました。同社は次のようにも述べています:
当社は侵害によって生じる損失については気にしておらず、AI アート ツールの開発を中止するつもりはありません。
Stability AI を法廷に持ち込むことは、ゲッティ家の利益にはなりません。
訴訟を選択することには、より深い長期的な目的があり、裁判所が新しい法律を制定して現状を規制することを願っています。
以上がAI絵画侵害が確定!拡散モデルはあなたの写真を記憶する可能性があり、既存のプライバシー保護方法はすべて無効になりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。