昨年、DALL-E 2、安定拡散、その他の画像生成モデルのリリースにより、テキストから画像へのモデルによって生成された画像は、解像度、品質、これにより大幅な改善が行われ、下流のアプリケーション シナリオの開発が大幅に促進され、誰もが AI ペインターになりました。
しかし、関連する調査によると、現在の生成モデル技術にはまだ大きな欠陥があることがわかっています。それは、画像内に信頼できるビジュアルテキストを表示する方法がないということです。
研究結果によると、DALL-E 2 は画像内で一貫したテキスト文字を生成する際に非常に不安定であり、新しくリリースされた安定拡散モデルは直接「読み取り可能なテキスト」をレンダリングすることができません。既知の制限としてリストされています。
文字のスペルが間違っています: (1) カリフォルニア: All Dreams Welcome、(2) カナダ: For Glowing Hearts、(3) コロラド: It's Our Nature, (4) St. Louis: All Within Reach.
最近、Google Research は、画像のレンダリング効率を理解し改善しようとする新しい論文を発表しました。生成モデル 高品質のビジュアルテキストを作成する機能。
紙のリンク: https://arxiv.org/abs/2212.10562
研究者らは、現在のテキストから画像への生成モデルにテキスト レンダリングの欠陥がある主な理由は、文字レベルの入力機能が欠如していることであると考えています。モデル生成におけるこの入力機能の影響を定量化するために、この記事では、テキスト エンコーダーにテキスト入力機能 (文字認識および文字認識) が含まれるかどうかに関する一連の制御実験を設計しました。ブラインド)比較します。
研究者らは、プレーン テキスト ドメインにおいて、文字認識モデルが新しいスペル タスク (WikiSpell) で大幅なパフォーマンス向上を達成したことを発見しました。
この経験を視覚領域に移した後、研究者らは一連の画像生成モデルをトレーニングしました。実験結果は、文字認識モデルが一連の新しいテキスト レンダリング タスクにおいて文字ブラインドよりも優れていることを示しています (DrawText ベンチマーク)。
そして、文字認識モデルは、はるかに少ない数の例でトレーニングされたにもかかわらず、視覚的なスペルの点でより高度な最先端の単語に到達し、珍しい単語の正確性を実現しました。競合モデルよりも高いポイントを獲得。
文字認識モデル
言語モデルは、テキスト入力を構成する文字に直接アクセスできる文字認識モデルと文字ブラインド モデルに分類できます。アクセス権がないもの。初期のニューラル言語モデルの多くは、マーカーとして複数文字のトークンを使用せずに文字を直接操作していました。
その後のモデルは徐々に語彙ベースのトークン化に移行しました。ELMo などの一部のモデルは依然として文字認識を維持しましたが、BERT などの他のモデルは、より効果的な事前認識を優先して文字機能を放棄しました。トレーニング。
現在、最も広く使用されている言語モデルは文字ブラインドであり、サブワードを生成するバイト ペア エンコーディング (BPE) などのデータ駆動型のサブワード セグメンテーション アルゴリズムに依存しています。語彙。
これらのメソッドは、珍しいシーケンスについては文字レベルの表現にフォールバックできますが、それでも一般的な文字シーケンスを分割できない単位に圧縮するように設計されています。
このペーパーの主な目的は、高品質のビジュアル テキストをレンダリングする画像生成モデルの機能を理解し、改善することです。
この目的のために、研究者たちはまず現在のテキスト エンコーダのスペル能力を単独で調査しました。実験結果から、文字ブラインド テキスト エンコーダは非常に人気があるものの、彼らは入力の文字レベルの構成に関する直接信号を受信しないため、スペル能力が制限されます。
研究者らは、さまざまなサイズ、アーキテクチャ、入力表現、言語、調整方法のテキスト エンコーダのスペル機能もテストしました。 この論文は、ネットワークの事前トレーニングを通じて強力なスペル知識 (精度 >99%) を誘導する文字ブラインド モデルの奇跡的な能力を初めて記録していますが、実験結果は次のことを示しています。この機能は英語以外の言語では一般化できず、100B パラメーターを超えるスケールでのみ達成可能であるため、ほとんどのアプリケーション シナリオでは実現できません。 一方、文字認識テキスト エンコーダーは、小規模でも強力なスペル機能を有効にします。 これらの発見を画像生成シナリオに適用する際に、研究者らは一連の文字を認識したテキストから画像へのモデルをトレーニングし、それらのモデルが既存および新規のテキストに対して良好なパフォーマンスを発揮することを実証しました。レンダリングのパフォーマンスが大幅に優れています。評価におけるキャラクターブラインドモデル。 ただし、純粋な文字レベルのモデルでは、テキスト レンダリングのパフォーマンスは向上しましたが、ビジュアル テキストを含まないプロンプトでは、画像とテキストの位置合わせが低下します。 この問題を軽減するために、研究者は、最高のパフォーマンスが達成できるように文字レベルとトークンレベルの入力表現を組み合わせることを提案しています。 テキストから画像への生成モデルは、デコード用の表現を生成するテキスト エンコーダーに依存しているため、研究者らはまずウィクショナリーからいくつかの単語をサンプリングして、We を作成しました。 WikiSpell ベンチマークを使用し、このデータセットに基づいてテキストのみのスペル評価タスクでテキスト エンコーダーの機能を調べます。 WikiSpell の各例では、モデルへの入力は単語であり、期待される出力はその単語です。特定のスペル (各 Unicode 文字の間にスペースを挿入することによって生成されます)。 この記事は単語の頻度とモデルのスペル能力との関係を研究することだけに興味があるため、研究者は単語に基づいてon mC4 コーパス内の出現頻度により、ウィクショナリー内の単語が重複しない 5 つのバケットに分割されます: 単語の最も頻繁な 1%、単語の最も頻繁な 1 ~ 10%、単語の 10 ~ 20%、20 ~ 30%の単語と、単語の下位 50% (コーパスに一度も出現したことのない単語を含む)。 次に、各バケットから 1000 単語を均等にサンプリングして、テスト セット (および同様の開発セット) を作成します。 最後に、2 つの部分を組み合わせて 10,000 語のトレーニング セットが構築されました。下位 50% のバケット (最も一般的でない単語) から均一にサンプリングされた 5,000 語と、それに比例して別の 5,000 語がサンプリングされました。 mC4 での頻度 (これにより、トレーニング セットのこの半分が頻繁な単語に偏ります)。 研究者は、開発セットまたはテスト セットに選択された単語をトレーニング セットから除外するため、評価結果は常に除外された単語に対するものになります。 研究者らは、英語に加えて、影響モデルをカバーするために選択された他の 6 つの言語 (アラビア語、中国語、フィンランド語、韓国語、ロシア語、タイ語) を評価しました。スペル能力に応じて、言語評価ごとに上記のデータセット構築プロセスが繰り返されました。 研究者らは WikiSpell ベンチマークを使用して、T5 (英語データの 1 つ) を含む、さまざまなスケールで複数の事前トレーニングされたテキストのみのモデルのパフォーマンスを評価しました。事前トレーニング済みの文字ブラインド コーデック モデル)、mT5 (T5 に似ていますが、100 以上の言語で事前トレーニング済み)、ByT5 (UTF-8 バイト シーケンスで直接動作する mT5 の文字認識バージョン)、PaLM (より大きなデコード モデル、主に英語で事前トレーニング済み)。 純粋な英語と多言語の実験結果では、文字ブラインド モデル T5 と mT5 は、上位 1% を含むバケットでより優れたパフォーマンスを発揮することがわかります。最も頻繁に使用される単語ですが、大きく異なります。 モデルは通常、データ内に頻繁に出現する例で最高のパフォーマンスを発揮するため、この結果は直観に反するように見えますが、サブワード語彙のトレーニング方法により、頻繁に出現する単語は通常、表現されるのは単一のアトミック トークン (または少数のトークン) であり、英語の上位 1% バケットに含まれる単語の 87% が T5 の語彙によってサブワード トークンとして表現されるという事実も同様です。 したがって、スペル精度スコアが低いということは、T5 のエンコーダが語彙内のサブワードに関する十分なスペル情報を保持していないことを示しています。 第 2 に、文字ブラインド モデルの場合、スケールはスペル能力に影響を与える重要な要素です。 T5 と mT5 はどちらもスケールが大きくなるにつれて徐々に性能が向上しますが、XXL スケールであっても、これらのモデルは特に強力なスペル能力を示しません。 文字ブラインド モデルが PaLM のスケールに達した場合にのみ、ほぼ完璧なスペル能力が見られるようになります。540B パラメーターの PaLM モデルは、英語のすべての周波数ビンで > を達成します 99%プロンプトには 20 個の例しか表示されませんが、精度は高くなります (T5 では 1,000 個の微調整された例が表示されます)。 ただし、PaLM は他の言語ではパフォーマンスが悪くなります。これはおそらく、これらの言語の事前トレーニング データがはるかに少ないためです。 ByT5 の実験では、文字認識モデルがより強力なスペル機能を発揮することが示されています。 Base および Large サイズでの ByT5 のパフォーマンスは、XL および XXL にわずかに遅れをとっているだけであり (ただし、それでも少なくとも 90% の範囲内)、単語の頻度は ByT5 のスペル能力に大きな影響を与えていないようでした。 ByT5 のスペル パフォーマンスは (m)T5 の結果をはるかに上回り、パラメータが 100 倍多い PaLM の英語パフォーマンスにさえ匹敵し、他の言語における PaLM のパフォーマンスを上回ります。 ByT5 エンコーダはかなりの量の文字レベルの情報を保持しており、この情報はデコード タスクのニーズに応じてこれらの凍結パラメータから取得できることがわかります。 2014 年にリリースされた COCO データセットから 2022 年の DrawBench ベンチマークまで、FID、CLIP スコアから人間の好みやその他の指標、テキストの評価方法まで- 画像モデルは常に重要な研究テーマです。 しかし、テキストのレンダリングとスペルの評価に関する関連作業は不足していました。 この目的を達成するために、研究者は、テキストから画像へのモデルのテキスト レンダリング品質を包括的に測定するように設計された新しいベンチマーク DrawText を提案しました。 DrawText ベンチマークは、モデル機能のさまざまな次元を測定する 2 つの部分で構成されています: 1) DrawText Spell、英語の単語の大規模なコレクションの通常の単語レンダリングによって評価; 研究者は、英語の WikiSpell 頻度バケットからそれぞれ 100 単語をサンプリングし、標準テンプレートに挿入して合計 500 のヒントを作成しました。 プロンプトごとに、候補モデルから 4 つの画像が抽出され、人間による評価と光学式文字認識 (OCR) ベースのメトリクスを使用して評価されます。 2) DrawText Creative、視覚効果のテキスト レンダリングを通じて評価されます。 ビジュアル テキストは、道路標識などの一般的なシーンに限定されず、テキストは走り書き、絵画、彫刻、彫刻など、さまざまな形で表示されます。 画像生成モデルが柔軟で正確なテキスト レンダリングをサポートしている場合、デザイナーはこれらのモデルを使用して創造的なフォント、ロゴ、レイアウトなどを開発できるようになります。 これらのユースケースをサポートする画像生成モデルの機能をテストするために、研究者はプロのグラフィック デザイナーと協力して、さまざまなクリエイティブなスタイルと設定でテキストをレンダリングする必要がある 175 の異なるプロンプトを作成しました。 多くの手がかりは現在のモデルの能力を超えており、最先端のモデルでは単語のスペルミス、省略、または繰り返しが表示されます。 実験結果は、比較に使用した 9 つの画像生成モデルのうち、文字認識モデル (ByT5 および Concat) が他のモデルよりも優れていることを示しています。モデルのサイズ、特に一般的ではない単語の場合。 Imagen-AR はトリミングを回避する利点を示しており、6.6 倍のトレーニング時間がかかったにもかかわらず、依然としてキャラクター認識モデルよりもパフォーマンスが劣っています。 。 モデル間のもう 1 つの明らかな違いは、複数のサンプルにわたって特定の単語のスペルを一貫して間違えるかどうかです。 実験結果では、どれだけ多くのサンプルを採取しても、T5 モデルには多くのスペルミスのある単語が含まれていることがわかります。これは研究者が信じていることです。は、テキスト文字の知識がエンコーダに欠落していることを示します。 対照的に、ByT5 モデルには基本的に散発的なエラーのみが発生します。 モデルが全体にわたって一貫して正しい (4/4) または一貫して不正確である (0/4) 割合を測定することで定量化できます。 4 つの画像サンプル この観察。 特に一般的な単語 (上位 1%) で鋭いコントラストが見られます。つまり、ByT5 モデルは一貫してエラーを起こすことがありません。 T5 モデルは、単語の 10% 以上で一貫して間違えます。 WikiSpell Benchmark
テキスト生成実験
DrawText Benchmark
画像生成実験
以上が文盲の画家にならないでください! Google は「テキスト エンコーダー」を魔法のように変更しました。小さな操作で画像生成モデルが「スペル」を学習できるようになります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。