OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

PHPz
リリース: 2023-08-29 20:25:03
転載
663 人が閲覧しました

近年、テキスト生成画像の分野で多くの驚くべき進歩が見られ、多くのモデルがテキストの指示に基づいて高品質で多様な画像を作成できます。生成された画像はすでに非常に現実的ですが、現在のモデルは通常、風景や物体などの物理的な画像の生成には優れていますが、漢字などの複雑なグリフ テキストを含む画像など、一貫性の高い詳細を備えた画像を生成するのが困難です

この問題を解決するために、OPPO やその他の機関の研究者は、GlyphDraw と呼ばれるユニバーサル学習フレームワークを提案しました。このフレームワークの目標は、モデルが一貫したテキストが埋め込まれた画像を生成できるようにすることです。この研究は、画像合成の分野で漢字生成の問題を解決する最初の研究です。

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

  • 論文を表示するには、次のリンクをクリックしてください。 https://arxiv.org/abs/2303.17870

  • プロジェクトホームページのリンク: https://1073521013.github.io/glyph-draw.github.io/

まず、展示会場の警告スローガンの生成などの生成効果を見てみましょう:

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

# 看板の作成:

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

画像に簡単なテキスト説明を追加すると、テキストのスタイルを多様化することもできます

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

もう 1 つの興味深い実用的な例は、次のとおりです。絵文字の生成:

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

結果にはいくつかの欠陥がありますが、全体として、この研究によって生成された結果は優れています。この研究の主な貢献は次のとおりです。

  • この研究は、GlyphDraw と呼ばれる漢字画像生成フレームワークを提案します。生成プロセス全体で、漢字のグリフや位置などの補助情報を使用して、このフレームワークはきめ細かいガイダンスを提供できるため、生成された漢字画像を高品質で画像にシームレスに埋め込むことができます

  • #この研究では、事前トレーニング済みモデルのトレーニング可能なパラメーターの数を制限して、過剰学習や壊滅的な忘却を防ぐことで、オープンドメイン生成でモデルのパフォーマンスを適切に維持する効果的なトレーニング戦略を提案しています。漢字画像
  • この研究では、トレーニング データセットを構築するプロセスを詳しく説明し、漢字画像生成の品質を評価するための新しいベースライン方法を提案します。その中で、GlyphDraw の生成精度は 75% に達し、以前の画像合成方法よりも大幅に向上しました。

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

モデル紹介:

まず、この研究では、複雑な画像とテキストのデータセット構築戦略を設計しました。次に、オープンソースの画像合成アルゴリズム Stable Diffusion を使用して、図 2 に示すように、一般的な学習フレームワーク GlyphDraw が提案されます。

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル#安定した拡散の全体的なトレーニング目標を表現できます。

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデルGlyphDraw は、安定拡散のクロスアテンション メカニズムに基づいています。元の入力の潜在ベクトル z_t を、画像の潜在ベクトル z_t、テキスト マスク l_m、グリフ イメージ l_g

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル とカスケードします。さらに、domain-特定の融合モジュール、条件 C には、グリフとテキストの混合機能が装備されています。テキスト マスクとグリフ情報の導入により、トレーニング プロセス全体できめ細かい拡散制御を実現できます。これはモデルのパフォーマンスを向上させるための重要なコンポーネントであり、最終的には漢字テキストを含む画像を生成できます。

具体的には、テキスト、ピクセル情報の表現、特に象形漢字などの複雑なテキスト形式では、自然物とは大きく異なります。たとえば、中国語の「空」という単語は、複数のストロークで二次元構造で構成されており、対応する自然イメージは「白い雲が点在する青い空」となります。対照的に、中国語の文字は非常にきめ細かい特性を持っており、小さな動きや変形によってもテキストが正しくレンダリングされず、画像生成が不可能になる可能性があります。

自然画像の背景に文字を埋め込むには、隣接する自然画像のピクセルに影響を与えずにテキスト ピクセルの生成を正確に制御するという重要な問題についても考慮する必要があります。自然画像上に完璧な漢字を表示するために、著者は 2 つの重要なコンポーネント、つまり位置制御とグリフ制御を設計しました。これらは拡散合成モデルに統合されました。

他のモデルのグローバル条件付き入力とは異なり、文字ピクセルの基礎となる特徴分布は自然画像ピクセルのそれとは大きく異なるため、文字生成では画像の特定の局所領域にさらに注意を払う必要があります。モデル学習の崩壊を防ぐために、この研究では、異なる領域間の分布を分離するためのきめの細かい位置領域制御を革新的に提案しています。

書き換えられた内容: 位置制御に加えて、もう 1 つの重要な問題は、中国語を細かく制御することです。文字ストローク合成。漢字の複雑さと多様性を考慮すると、明確な事前知識なしに大規模な画像とテキストのデータセットから学習することは非常に困難です。漢字を正確に生成するために、この研究では、モデルの拡散プロセスに追加の条件情報として明示的なグリフ画像を導入します。

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

元の意味を維持するために内容は中国語に書き換えられています。書き換えられた内容は次のとおりです。 研究設計と実験結果

これまでに漢字画像生成に特化したデータセットが存在しないため、この研究ではまず、定性的および定量的評価のためにベンチマーク データセット ChineseDrawText を作成しました。その後、研究者らは ChineseDrawText 上でいくつかのメソッドの生成精度をテストし、OCR 認識モデルを通じて評価しました。

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

この研究で提案された GlyphDraw モデルは、補助グリフと位置を最大限に活用しています。情報を取得し、平均精度 75% という優れた精度を達成し、キャラクター画像生成におけるこのモデルの優れた能力を証明しました。次の図は、いくつかの方法の視覚的な比較結果を示しています

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

#さらに、GlyphDraw は、MS-COCO FID でトレーニング パラメーターを制限することで、オープンドメインの画像合成パフォーマンスを維持することもできます。 -10k 一般的な画像合成の FID は 2.3 だけ低下しました

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

OPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデル

##興味のある読者は、研究の詳細について論文の原文を読むことができます。

以上がOPPO、GlyphDrawを提案:漢字を含む画像をワンクリックで生成、顔文字を出力する拡散モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!