最近のAI描画の人気は皆さんもよくご存じかと思います。
AI 描画ソフトウェアによって生成された作品から、多くの人間のアーティストを破ってデジタル アート チャンピオンシップで優勝するまで、現在に至るまで、DALL.E、Imagen、novelai などの国内外のプラットフォームが繁栄しています。
おそらくあなたは、関連するウェブサイトをクリックして、頭の中の風景を AI に描写させようとしたり、自分のハンサム/美しい写真をアップロードして、最終的に生成された荒々しい男を見て笑ったりしたことがあるのではないでしょうか。
それでは、AI 描画の魅力を感じながら、その背後にある謎とは何なのか、考えたことはありますか (いや、きっとあるはずです)。
△米国コロラドテクノロジーエキスポデジタルアート部門優勝作品「スペースオペラ」
すべてはプロジェクトから始まるDDPM モデルと言えば...
DDPMモデル、正式名称はDenoising Diffusion Probabilistic Modelであり、現在の拡散モデルの元祖とも言えます。
GAN、VAE、フロー モデルなどの以前のモデルとは異なり、拡散モデルの全体的な考え方は、最適化指向のアプローチを通じて純粋なノイズ画像から画像を徐々に生成することです。
#△生成された画像モデルの比較です。友達の中には、純粋なノイズ画像とは何なのかと尋ねる人もいるかもしれません。 それは非常に単純で、古いテレビでは信号がないときに「チクチク」というノイズとともに表示される雪の結晶の写真は純粋なノイズ写真です。 DDPM が生成フェーズで行うことは、鮮明な画像が本来の姿を明らかにするまで、これらの「雪の結晶」を少しずつ削除することであり、この段階を「ノイズ除去」と呼びます。 △純粋なノイズ画像: 古いテレビのスノーフレーク画面説明を読むと、ノイズ除去が実際には非常に複雑なプロセスであることがわかります。 ノイズ除去に明確なルールはありません。長い間忙しかったのかもしれませんが、結局のところ、奇妙な写真の前で泣きたくなることがあります。 もちろん、画像の種類が異なれば、ノイズ除去ルールも異なります。このルールを機械に学習させる方法については、誰かがアイデアを思いつき、素晴らしい方法を考え出しました。ノイズ除去のルールを学ぶのは難しいので、最初にノイズを追加して画像を純粋なノイズ画像に変えてから、プロセス全体を逆に実行してみてはいかがでしょうか?
これにより、拡散モデルのトレーニング推論プロセス全体が確立されます。まず、順方向プロセスでノイズを徐々に追加することで、画像がガウス分布に近似する純粋なノイズ画像に変換されます。 次に、逆のプロセスで徐々にノイズを除去して画像を生成します。最後に、元の画像と生成された画像の類似性を高めることを目的として、理想的な効果に達するまでモデルが最適化されます。 △DDPM のトレーニング推論プロセスこの時点で、皆さんはどのように受け入れるでしょうか?問題ない、簡単だと感じたら準備を整えて、究極の一手(徹底理論)を使い始めます。1.1.1 前進プロセス
前進プロセスは拡散プロセスとも呼ばれ、全体がパラメータ化されたマルコフ連鎖 (マルコフ連鎖) です。初期データ分布 x0~q(x) から開始して、T 回の各ステップでデータ分布にガウス ノイズが追加されます。ステップ t-1 xt-1 からステップ t xt までのプロセスは、ガウス分布で次のように表すことができます。 適切な設定を使用すると、 t が増加し続けると、元のデータがx0は徐々にその特性を失います。ノイズを追加するステップを無限に繰り返した後、最終的なデータ xT は、特徴がなく完全にランダムなノイズのない画像になることがわかります。これは、私たちが最初に「スノーフレーク スクリーン」と呼んだものです。 この過程では、ハイパーパラメータ βt を設定することで各ステップの変化を制御することができ、最初の画像が何であるかを知っているという前提の下では、順方向ノイズの全過程が既知であると言えます。制御可能であるため、生成されたデータが各ステップでどのように見えるかを完全に知ることができます。 しかし、問題は、各計算を開始点から開始し、各ステップの処理を組み合わせて、ゆっくりと目的のステップ データ xt に導出する必要があり、非常に面倒なことです。幸いなことに、ガウス分布のいくつかの特性により、1 ステップで x0 から xt を直接取得できます。 ここのに注意してください
と は結合係数であり、本質的にはハイパーパラメータの βt 式です。
1.1.2 逆過程
逆過程も順過程と同様にマール・マルコフ連鎖ですが、ここで使用されるパラメータは異なります。特定のパラメータに関しては、これがマシンに学習させる必要があるものです。
機械がどのように学習するかを理解する前に、ある元のデータ x0 に基づいてステップ t xt からステップ t-1 xt-1 に正確に戻るプロセスはどのようなものであるべきかを考えます。
答えは、これは依然としてガウス分布で表現できるということです。
ここでは x0 を考慮する必要があることに注意してください。これは、によって生成される最終画像を意味します。逆のプロセスは、元のデータに関連するものと比較する必要があります。猫の写真を入力した場合、モデルによって生成される画像は猫のものである必要があり、犬の写真を入力した場合、モデルによって生成される画像も犬に関連するものでなければなりません。 x0 を削除すると、どのような画像学習を入力しても、拡散によって生成される最終的な画像は同じになり、「犬と猫の区別がつかない」ことになります。
一連の導出の後、パラメータが逆の処理
と
# であることがわかりました。 ##、それでも x0、xt、パラメータ βt、で表すことができます。すごいですね~
もちろん、機械は知りません。これは事前に実際の反転プロセスで実行できることは、p0(xt-1|xt) で表されるおおよその推定分布を使用してシミュレーションすることです。1.1.3 最適化の目標
最初に、元のデータと最終的に生成されたデータの間の類似性を高めることによってモデルを最適化する必要があると述べました。逆のプロセス。機械学習では、クロスエントロピーに基づいてこの類似性を計算します。 クロスエントロピーについては、学術的な定義では「2つの確率分布間の差異情報を測定するために使用される」とされています。言い換えれば、クロスエントロピーが小さいほど、モデルによって生成された画像は元の画像に近づきます。ただし、ほとんどの場合、クロス エントロピーの計算は困難または不可能であるため、通常は、より単純な式を最適化することで同じ効果が得られます。 拡散モデルは、VAE モデルの最適化アイデアを利用し、最大最適化ターゲットとしてクロス エントロピーを変分下限 (VLB、ELBO とも呼ばれる) に置き換えます。無数の分解ステップを経て、最終的に次の結果が得られました。 これほど複雑な数式を見て、多くの友人は頭を大きくしたに違いありません。ただし、パニックにならないでください。ここで注意する必要があるのは、真ん中の Lt-1 です。これは、推定分布 p0(xt-1|xt) と、その間の実分布 q(xt-1|xt,x0) を表しています。 xt と xt-1 ) の違い。ギャップが小さいほど、モデルによって生成される最終イメージはより良くなります。 #1.1.4 上記のコードDDPM の背後にある原則を理解した後、DDPM モデルがどのように実装されるかを見てみましょう...
これは奇妙です。これを読んだあなたは、何百行、何千行ものコードの洗礼は絶対に受けたくないと思います。
幸いなことに、MindSpore は完全に開発された DDPM モデルを提供しました。トレーニングと推論は両手で行うことができます。操作は簡単で、1 枚のカードで実行できます。効果だけを体験したい友人
pip install denoising-diffusion-mindspore
#次に、次のコードを参照してパラメータを設定する必要があります:
重要なパラメータの分析:
GaussianDiffusion
Trainer
DDPM は Diffusion のストーリーの始まりにすぎません。現在、数え切れないほどの研究者がその背後にある壮大な世界に魅了され、研究を続けています。
モデルを継続的に最適化しながら、さまざまな分野での拡散の応用も徐々に開発してきました。
これには、画像の最適化、修復、コンピューター ビジョンの分野での 3D ビジョン、自然言語処理でのテキスト読み上げ、分子構造の生成、科学用 AI の分野でのマテリアル デザインなどが含まれます。
スタンフォード大学コンピューター サイエンス学部の博士課程の学生、エリック ゼリクマンは、想像力を駆使して、DALLE-2 と、最近人気のもう 1 つの会話モデルである ChatGPT を組み合わせて、心温まる絵本の物語を作成しようとしました。
△DALLE-2 ChatGPT は、「ロビー」という名前の小さなロボットについての物語を完成させました。
しかし、それは一般に最も広く知られています。それはテキストから画像への応用であるべきです。いくつかのキーワードまたは短い説明を入力すると、モデルが対応する画像を生成します。
たとえば、「City Night Scene Cyberpunk Greg Lutkowsky」と入力すると、未来的な SF スタイルの色鮮やかな作品が完成します。
別の例として、「Monet's Woman Holding a Parasol in Moon Dream」と入力すると、木製スタイルの、非常にかすんだ女性のポートレートが生成されます。モネの「睡蓮」を思い出しますか?
リアルな風景写真をスクリーンセーバーとして使いたいですか?問題ない!
△カントリー フィールド スクリーンセーバー
より 2 次元の密度が高いものが必要ですか?それもOKです!
△現実的なスタイルの深淵風景画から
上の写真はすべて、MindDiffusionプラットフォームの下でWukong Paintingによって作成されたものです。ああ、Wukong Huahuaは大きな絵です。拡散モデルに基づく中国語テキスト グラフ モデル。ファーウェイのノア チーム、チャイナソフト分散並列研究所、およびアセンド コンピューティング製品部門によって共同開発されました。
モデルは Wukong データセットに基づいてトレーニングされ、MindSpore と Ascend のソフトウェアおよびハードウェア ソリューションを使用して実装されています。
試してみたいと思っている友達、心配しないでください。誰もがより良い経験をし、自己開発の余地を増やすために、MindDiffusion のモデルには次のような特性も持たせる予定です。トレーニング可能性と推論。来年皆さんにお会いできる予定ですので、楽しみにお待ちください。
ブレインストーミングを行って、さまざまなユニークなスタイルの作品を生み出すことを歓迎します~
(内部情報を聞きに行った同僚によると、すでに「張飛刺繍」を試し始めている人もいるそうです。 「劉華強」「メロンの切り方」「古代ギリシャの神々対ゴジラ」うーん、どうしようかな、俄然完成が楽しみです(ಡωಡ))
最後に、Diffusion がブームになっている今、なぜこれほど人気が高まり、脚光を浴びて GAN ネットワークを超え始めているのかと疑問に思う人もいます。
普及には顕著な利点と明らかな欠点があり、その分野の多くはまだ空白であり、その将来性はまだ不明です。
なぜこれほど多くの人が精力的に取り組んでいるのでしょうか?
もしかしたら、マーイー教授の言葉が答えを与えてくれるかもしれません。
しかし、拡散プロセスの有効性とその急速な GAN の置き換えは、単純な真実も十分に示しています。
単純で正確な数学的導出を数行行えば、それらよりも優れた結果を達成できるということです。ハイパーパラメータを大規模にデバッグすることは、ネットワーク構造をデバッグするよりもはるかに効果的です。
これがディフュージョンモデルの魅力なのかもしれません。
[1]https://medium.com/mlearning-ai/ai-art-wins-fine-arts-competition-and-sparks-controversy- 882f9b4df98c
[2]ジョナサン・ホー、アジェイ・ジェイン、ピーター・アッビール。ノイズ除去拡散確率モデル。 arXiv:2006.11239、2020.
[3]Ling Yang、Zhilong Zhang、Shenda Hon、Runsheng Xu、Yue Zhao、Yingxia Shao、Wentao Zhang、Ming-Hsuan Yang、Bin Cui。普及モデル: 手法とアプリケーションの包括的な調査。 arXiv プレプリント arXiv:2209.00796、2022.
[4]https://lilianweng.github.io/posts/2021-07-11-diffusion-models
[5]https:/ /github.com/lvyufeng/denoising-diffusion-mindspore
[6]https://zhuanlan.zhihu.com/p/525106459
[7]https://zhuanlan.zhihu .com/p/500532271
[8]https://www.zhihu.com/question/536012286
[9]https://mp.weixin.qq.com/s /XTNk1saGcgPO-PxzkrBnIg
[10]https://m.weibo.cn/3235040884/4804448864177745
以上が1 枚のカードで AI ペイント モデルを実行できます。初心者でも理解できるチュートリアルはこちらです。100 万枚のカードで無料の NPU コンピューティング パワーを利用できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。