最近、AI ペイントが人気を博しており、国内外で AI ペイントブームが巻き起こり、AI ペイントモデルによって生成されたさまざまな画像がさまざまなソーシャル メディアで一般的になっています。先月、AI描画ツールMidjourneyを使って制作されたゲームデザイナーの作品「スペースオペラ」が、コロラド州フェアのアートコンペティションで金賞を受賞した。
これに触発されて、中国人民大学のLu Zhiwu教授のチームは、自社開発したマルチモーダル事前トレーニングモデルWenlanと最新の画像生成テクノロジーを革新的に組み合わせ、AI絵画を作成しました。中国の伝統文化を最もよく理解する世代モデル。
Wenlan モデルは、中国人民大学ヒルハウス人工知能大学院の常任学部長である Wen Jiron 教授と Lu Zhiwu 教授が主導する大規模な中国のマルチモーダル予測モデルです。宋瑞華常任准教授がモデルをトレーニングします。 Wenlan モデルは、6 億 5,000 万の関連性の低い中国語の画像とテキストのペアで事前トレーニングされており、独自の中国語の意味理解能力を学習し、中国語を適切に解釈できます。意味論: 視覚情報と結びつき、特に中国語の固有の暗黙的な意味論や絵の中の抽象的な概念を読み取るのが得意です。 今年 6 月、関連する研究成果「マルチモーダル基盤モデルによる汎用人工知能への取り組み」が Nature Communications 誌に掲載されました。
論文リンク: https://www.nature.com/articles/s41467-022- 30761-2
Wenlan と生成モデルの組み合わせ研究チームは、Wenlan モデルの可能性を探求し、それを最新の生成技術と組み合わせます。 Wenlan の抽象的な意味理解能力と生成モデルの強力な生成能力の革新的な組み合わせにより、結果として得られるモデルは入力テキストの意味を適切に解釈し、対応する意味を持つ画像を生成できるようになります。
チームは、伝統的な中国文化におけるウェンランの可能性を探ること、最新の生成モデル アーキテクチャを借用すること、収集された伝統的な中国絵画データ セットでトレーニングすることに重点を置いています。結果のモデルは、入力テキストに基づいて、対応するスタイル
の画像を生成できます。詳細なアーキテクチャ図を以下に示します。
具体的には、チームは中国の絵画データセットで無条件生成モデルをトレーニングし、反復的に生成しました。 Wenlan モデルを使用して生成プロセスをガイドします。
このメソッドは、まずノイズ画像をランダムに初期化します。生成の各ステップで、モデルは生成された画像の内容を入力テキストに近づく方向に調整します。そのため、各ステップで生成された画像の内容と入力テキストは、潜在空間内で一致する傾向があります。ウェンランモデル。このステップは次のように説明できます:
ここで、x と y はそれぞれピクチャとテキストを表し、IE と TE はそれぞれ Wenlan のピクチャ エンコーダとテキストを表します。 。このモデルは、継続的な反復を通じて、テキストのセマンティクスに基づいて高品質のシンボル画像を生成する機能を実現できます。 Wenlan 絵画モデルの評価結果
Wenlan モデル自体の特性により、Wenlan 絵画モデルは入力された古代中国の詩に基づいて対応する絵を生成できます。 。以下の例からわかるように、モデルによって生成された画像は、古代の詩の内容および芸術的概念と非常に一致しています。
同時に、研究チームは、ウェン・ランの絵画モデルには、不明瞭な儒教、仏教、道教についても独自の解釈が含まれていることも発見しました
。 儒教、仏教、道教を解釈する際のWenlanの絵画モデルの特徴をよりよく示すために、チームは比較分析のためにDream Stealer、Wenxin、Discoなど、国内外で最も人気のあるAI絵画モデルを選択しました。拡散、ミッドジャーニー、安定拡散。 Disco Diffusion、Midjourney、Stable Diffusion の場合は、まず中国語のテキストを Baidu で翻訳する必要があります。 以下の図の生成された結果から判断すると、Dream Stealer、Disco Diffusion、Midjourney、Stable Diffusion は、文内に具体的なオブジェクトを生成するか、より良いが異なる画像を生成する傾向があります。内容. 文章は絵とあまり関係ありません。 Wenxin は文字を含む画像を生成する傾向があり、火のついたろうそくのような光にも直接対応します。 Wenlan 絵画モデルは、文全体の意味とそこに含まれる儒教の思想をより適切に読み取ることができるため、この思想により沿った絵を生成できます。 第 2 に、仏教思想を含む テキスト入力の場合、最も一般的な絵画生成モデルでは仏教思想の一部しかキャプチャできません。的を絞った方法であり、一部の絵画モデルはそのアイデアを誤解する可能性さえあります。 最後に、 道教思想の観点から、チームは『道経経』の中で最も核となる文を 3 つ選びました。 Dream Stealer、Disco Diffusion、Midjourney、Stable Diffusion と比較して、Wen Xin は Tao Te Ching を解釈する能力に優れています。 しかし全体的には、Wenlan の絵画モデルは道教の思想をより正確に解釈しており、生成された絵はより道教の芸術的概念を持っています。 概要
以上が中国の伝統文化を深く理解した AI 絵画モデルで、その絵画は儒教、仏教、道教を伝える具体的かつ精神的なものです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。