WikiSpell Benchmark

テキスト生成実験

DrawText Benchmark

画像生成実験

ホームページ

テクノロジー周辺機器

文盲の画家にならないでください！ Google は「テキストエンコーダー」を魔法のように変更しました。小さな操作で画像生成モデルが「スペル」を学習できるようになります。

文盲の画家にならないでください！ Google は「テキストエンコーダー」を魔法のように変更しました。小さな操作で画像生成モデルが「スペル」を学習できるようになります。

王林

Apr 14, 2023 pm 03:16 PM

グーグル

昨年、DALL-E 2、安定拡散、その他の画像生成モデルのリリースにより、テキストから画像へのモデルによって生成された画像は、解像度、品質、これにより大幅な改善が行われ、下流のアプリケーションシナリオの開発が大幅に促進され、誰もが AI ペインターになりました。

しかし、関連する調査によると、現在の生成モデル技術にはまだ大きな欠陥があることがわかっています。それは、画像内に信頼できるビジュアルテキストを表示する方法がないということです。

研究結果によると、DALL-E 2 は画像内で一貫したテキスト文字を生成する際に非常に不安定であり、新しくリリースされた安定拡散モデルは直接「読み取り可能なテキスト」をレンダリングすることができません。既知の制限としてリストされています。

文字のスペルが間違っています: (1) カリフォルニア: All Dreams Welcome、(2) カナダ: For Glowing Hearts、(3) コロラド: It's Our Nature, (4) St. Louis: All Within Reach.

最近、Google Research は、画像のレンダリング効率を理解し改善しようとする新しい論文を発表しました。生成モデル高品質のビジュアルテキストを作成する機能。

紙のリンク: https://arxiv.org/abs/2212.10562

研究者らは、現在のテキストから画像への生成モデルにテキストレンダリングの欠陥がある主な理由は、文字レベルの入力機能が欠如していることであると考えています。

モデル生成におけるこの入力機能の影響を定量化するために、この記事では、テキストエンコーダーにテキスト入力機能 (文字認識および文字認識) が含まれるかどうかに関する一連の制御実験を設計しました。ブラインド）比較します。

研究者らは、プレーンテキストドメインにおいて、文字認識モデルが新しいスペルタスク (WikiSpell) で大幅なパフォーマンス向上を達成したことを発見しました。

この経験を視覚領域に移した後、研究者らは一連の画像生成モデルをトレーニングしました。実験結果は、文字認識モデルが一連の新しいテキストレンダリングタスクにおいて文字ブラインドよりも優れていることを示しています (DrawText ベンチマーク)。

そして、文字認識モデルは、はるかに少ない数の例でトレーニングされたにもかかわらず、視覚的なスペルの点でより高度な最先端の単語に到達し、珍しい単語の正確性を実現しました。競合モデルよりも高いポイントを獲得。

文字認識モデル

言語モデルは、テキスト入力を構成する文字に直接アクセスできる文字認識モデルと文字ブラインドモデルに分類できます。アクセス権がないもの。

初期のニューラル言語モデルの多くは、マーカーとして複数文字のトークンを使用せずに文字を直接操作していました。

その後のモデルは徐々に語彙ベースのトークン化に移行しました。ELMo などの一部のモデルは依然として文字認識を維持しましたが、BERT などの他のモデルは、より効果的な事前認識を優先して文字機能を放棄しました。トレーニング。

現在、最も広く使用されている言語モデルは文字ブラインドであり、サブワードを生成するバイトペアエンコーディング (BPE) などのデータ駆動型のサブワードセグメンテーションアルゴリズムに依存しています。語彙。

これらのメソッドは、珍しいシーケンスについては文字レベルの表現にフォールバックできますが、それでも一般的な文字シーケンスを分割できない単位に圧縮するように設計されています。

このペーパーの主な目的は、高品質のビジュアルテキストをレンダリングする画像生成モデルの機能を理解し、改善することです。

この目的のために、研究者たちはまず現在のテキストエンコーダのスペル能力を単独で調査しました。実験結果から、文字ブラインドテキストエンコーダは非常に人気があるものの、彼らは入力の文字レベルの構成に関する直接信号を受信しないため、スペル能力が制限されます。

研究者らは、さまざまなサイズ、アーキテクチャ、入力表現、言語、調整方法のテキストエンコーダのスペル機能もテストしました。

この論文は、ネットワークの事前トレーニングを通じて強力なスペル知識 (精度 >99%) を誘導する文字ブラインドモデルの奇跡的な能力を初めて記録していますが、実験結果は次のことを示しています。この機能は英語以外の言語では一般化できず、100B パラメーターを超えるスケールでのみ達成可能であるため、ほとんどのアプリケーションシナリオでは実現できません。

一方、文字認識テキストエンコーダーは、小規模でも強力なスペル機能を有効にします。

これらの発見を画像生成シナリオに適用する際に、研究者らは一連の文字を認識したテキストから画像へのモデルをトレーニングし、それらのモデルが既存および新規のテキストに対して良好なパフォーマンスを発揮することを実証しました。レンダリングのパフォーマンスが大幅に優れています。評価におけるキャラクターブラインドモデル。

ただし、純粋な文字レベルのモデルでは、テキストレンダリングのパフォーマンスは向上しましたが、ビジュアルテキストを含まないプロンプトでは、画像とテキストの位置合わせが低下します。

この問題を軽減するために、研究者は、最高のパフォーマンスが達成できるように文字レベルとトークンレベルの入力表現を組み合わせることを提案しています。

WikiSpell Benchmark

テキストから画像への生成モデルは、デコード用の表現を生成するテキストエンコーダーに依存しているため、研究者らはまずウィクショナリーからいくつかの単語をサンプリングして、We を作成しました。 WikiSpell ベンチマークを使用し、このデータセットに基づいてテキストのみのスペル評価タスクでテキストエンコーダーの機能を調べます。

WikiSpell の各例では、モデルへの入力は単語であり、期待される出力はその単語です。特定のスペル (各 Unicode 文字の間にスペースを挿入することによって生成されます)。

この記事は単語の頻度とモデルのスペル能力との関係を研究することだけに興味があるため、研究者は単語に基づいてon mC4 コーパス内の出現頻度により、ウィクショナリー内の単語が重複しない 5 つのバケットに分割されます: 単語の最も頻繁な 1%、単語の最も頻繁な 1 ～ 10%、単語の 10 ～ 20%、20 ～ 30%の単語と、単語の下位 50% (コーパスに一度も出現したことのない単語を含む)。

次に、各バケットから 1000 単語を均等にサンプリングして、テストセット (および同様の開発セット) を作成します。

最後に、2 つの部分を組み合わせて 10,000 語のトレーニングセットが構築されました。下位 50% のバケット (最も一般的でない単語) から均一にサンプリングされた 5,000 語と、それに比例して別の 5,000 語がサンプリングされました。 mC4 での頻度 (これにより、トレーニングセットのこの半分が頻繁な単語に偏ります)。

研究者は、開発セットまたはテストセットに選択された単語をトレーニングセットから除外するため、評価結果は常に除外された単語に対するものになります。

研究者らは、英語に加えて、影響モデルをカバーするために選択された他の 6 つの言語 (アラビア語、中国語、フィンランド語、韓国語、ロシア語、タイ語) を評価しました。スペル能力に応じて、言語評価ごとに上記のデータセット構築プロセスが繰り返されました。

テキスト生成実験

研究者らは WikiSpell ベンチマークを使用して、T5 (英語データの 1 つ) を含む、さまざまなスケールで複数の事前トレーニングされたテキストのみのモデルのパフォーマンスを評価しました。事前トレーニング済みの文字ブラインドコーデックモデル)、mT5 (T5 に似ていますが、100 以上の言語で事前トレーニング済み)、ByT5 (UTF-8 バイトシーケンスで直接動作する mT5 の文字認識バージョン)、PaLM (より大きなデコードモデル、主に英語で事前トレーニング済み)。

純粋な英語と多言語の実験結果では、文字ブラインドモデル T5 と mT5 は、上位 1% を含むバケットでより優れたパフォーマンスを発揮することがわかります。最も頻繁に使用される単語ですが、大きく異なります。

モデルは通常、データ内に頻繁に出現する例で最高のパフォーマンスを発揮するため、この結果は直観に反するように見えますが、サブワード語彙のトレーニング方法により、頻繁に出現する単語は通常、表現されるのは単一のアトミックトークン (または少数のトークン) であり、英語の上位 1% バケットに含まれる単語の 87% が T5 の語彙によってサブワードトークンとして表現されるという事実も同様です。

したがって、スペル精度スコアが低いということは、T5 のエンコーダが語彙内のサブワードに関する十分なスペル情報を保持していないことを示しています。

第 2 に、文字ブラインドモデルの場合、スケールはスペル能力に影響を与える重要な要素です。 T5 と mT5 はどちらもスケールが大きくなるにつれて徐々に性能が向上しますが、XXL スケールであっても、これらのモデルは特に強力なスペル能力を示しません。

文字ブラインドモデルが PaLM のスケールに達した場合にのみ、ほぼ完璧なスペル能力が見られるようになります。540B パラメーターの PaLM モデルは、英語のすべての周波数ビンで > を達成します 99%プロンプトには 20 個の例しか表示されませんが、精度は高くなります (T5 では 1,000 個の微調整された例が表示されます)。

ただし、PaLM は他の言語ではパフォーマンスが悪くなります。これはおそらく、これらの言語の事前トレーニングデータがはるかに少ないためです。

ByT5 の実験では、文字認識モデルがより強力なスペル機能を発揮することが示されています。 Base および Large サイズでの ByT5 のパフォーマンスは、XL および XXL にわずかに遅れをとっているだけであり (ただし、それでも少なくとも 90% の範囲内)、単語の頻度は ByT5 のスペル能力に大きな影響を与えていないようでした。

ByT5 のスペルパフォーマンスは (m)T5 の結果をはるかに上回り、パラメータが 100 倍多い PaLM の英語パフォーマンスにさえ匹敵し、他の言語における PaLM のパフォーマンスを上回ります。

ByT5 エンコーダはかなりの量の文字レベルの情報を保持しており、この情報はデコードタスクのニーズに応じてこれらの凍結パラメータから取得できることがわかります。

DrawText Benchmark

2014 年にリリースされた COCO データセットから 2022 年の DrawBench ベンチマークまで、FID、CLIP スコアから人間の好みやその他の指標、テキストの評価方法まで- 画像モデルは常に重要な研究テーマです。

しかし、テキストのレンダリングとスペルの評価に関する関連作業は不足していました。

この目的を達成するために、研究者は、テキストから画像へのモデルのテキストレンダリング品質を包括的に測定するように設計された新しいベンチマーク DrawText を提案しました。

DrawText ベンチマークは、モデル機能のさまざまな次元を測定する 2 つの部分で構成されています:

1) DrawText Spell、英語の単語の大規模なコレクションの通常の単語レンダリングによって評価;

研究者は、英語の WikiSpell 頻度バケットからそれぞれ 100 単語をサンプリングし、標準テンプレートに挿入して合計 500 のヒントを作成しました。

プロンプトごとに、候補モデルから 4 つの画像が抽出され、人間による評価と光学式文字認識 (OCR) ベースのメトリクスを使用して評価されます。

2) DrawText Creative、視覚効果のテキストレンダリングを通じて評価されます。

ビジュアルテキストは、道路標識などの一般的なシーンに限定されず、テキストは走り書き、絵画、彫刻、彫刻など、さまざまな形で表示されます。

画像生成モデルが柔軟で正確なテキストレンダリングをサポートしている場合、デザイナーはこれらのモデルを使用して創造的なフォント、ロゴ、レイアウトなどを開発できるようになります。

これらのユースケースをサポートする画像生成モデルの機能をテストするために、研究者はプロのグラフィックデザイナーと協力して、さまざまなクリエイティブなスタイルと設定でテキストをレンダリングする必要がある 175 の異なるプロンプトを作成しました。

多くの手がかりは現在のモデルの能力を超えており、最先端のモデルでは単語のスペルミス、省略、または繰り返しが表示されます。

画像生成実験

実験結果は、比較に使用した 9 つの画像生成モデルのうち、文字認識モデル (ByT5 および Concat) が他のモデルよりも優れていることを示しています。モデルのサイズ、特に一般的ではない単語の場合。

Imagen-AR はトリミングを回避する利点を示しており、6.6 倍のトレーニング時間がかかったにもかかわらず、依然としてキャラクター認識モデルよりもパフォーマンスが劣っています。。

モデル間のもう 1 つの明らかな違いは、複数のサンプルにわたって特定の単語のスペルを一貫して間違えるかどうかです。

実験結果では、どれだけ多くのサンプルを採取しても、T5 モデルには多くのスペルミスのある単語が含まれていることがわかります。これは研究者が信じていることです。は、テキスト文字の知識がエンコーダに欠落していることを示します。

対照的に、ByT5 モデルには基本的に散発的なエラーのみが発生します。

モデルが全体にわたって一貫して正しい (4/4) または一貫して不正確である (0/4) 割合を測定することで定量化できます。 4 つの画像サンプルこの観察。

特に一般的な単語 (上位 1%) で鋭いコントラストが見られます。つまり、ByT5 モデルは一貫してエラーを起こすことがありません。 T5 モデルは、単語の 10% 以上で一貫して間違えます。

以上が文盲の画家にならないでください！ Google は「テキストエンコーダー」を魔法のように変更しました。小さな操作で画像生成モデルが「スペル」を学習できるようになります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7433

CakePHP チュートリアル

1359

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

Deepseekをコメントする方法 Feb 19, 2025 pm 05:42 PM

DeepSeekは、強力な情報を取得することですが、その不利な点は遅いことです。

DeepSeekを検索する方法 Feb 19, 2025 pm 05:39 PM

DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange（gate.io）Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

gate.io交換公式登録ポータル Feb 20, 2025 pm 04:27 PM

Gate.ioは、幅広い暗号資産と取引ペアを提供する主要な暗号通貨交換です。 gate.ioの登録は非常に簡単です。公式ウェブサイトにアクセスするか、「登録」をクリックし、登録フォームに入力し、電子メールを確認し、2因子検証（2FA）を設定する必要があります。登録を完了します。 gate.ioを使用すると、ユーザーは安全で便利な暗号通貨取引体験を楽しむことができます。

Binance Binance公式Webサイト最新バージョンログインポータル Feb 21, 2025 pm 05:42 PM

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します（モバイル検証コードやGoogle Authenticatorなど）。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

2025年のBitgetの最新のダウンロードアドレス：公式アプリを取得する手順 Feb 25, 2025 pm 02:54 PM

このガイドは、AndroidおよびiOSシステムに適した公式Bitget Exchangeアプリの詳細なダウンロードとインストール手順を提供します。このガイドは、公式ウェブサイト、App Store、Google Playなど、複数の権威ある情報源からの情報を統合し、ダウンロードおよびアカウント管理中の考慮事項を強調しています。ユーザーは、App Store、公式WebサイトAPKダウンロード、公式Webサイトジャンプ、完全な登録、ID検証、セキュリティ設定など、公式チャネルからアプリをダウンロードできます。さらに、ガイドはよくある質問や考慮事項をカバーします。

See all articles

文盲の画家にならないでください！ Google は「テキスト エンコーダー」を魔法のように変更しました。小さな操作で画像生成モデルが「スペル」を学習できるようになります。

WikiSpell Benchmark

テキスト生成実験

DrawText Benchmark

画像生成実験

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

文盲の画家にならないでください！ Google は「テキストエンコーダー」を魔法のように変更しました。小さな操作で画像生成モデルが「スペル」を学習できるようになります。