普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力:OPPOなどが提案するGlyphDraw
最近、テキスト生成画像の分野で多くの予期せぬ進歩が見られ、多くのモデルがテキストの指示に基づいて高品質で多様な画像を作成する機能を実現できます。生成された画像はすでに非常にリアルですが、現在のモデルは風景や物体などの物理的なオブジェクトの画像の生成には優れていることが多いですが、漢字などの複雑なグリフテキストを含む画像など、一貫性の高い詳細を備えた画像を生成するのに苦労しています。 。
この問題を解決するために、OPPO やその他の機関の研究者は、モデルが一貫したテキストが埋め込まれた画像を生成できるように設計された一般的な学習フレームワーク GlyphDraw を提案しました。画像合成の分野で、漢字生成の問題を解決した最初の研究。
- 文書アドレス: https://arxiv.org/abs/2303.17870
- プロジェクトのホームページ: https://1073521013.github.io/glyph-draw.github.io/
まずは始めましょうたとえば、展示会場の警告スローガンの生成:
看板の生成:
画像に簡単なテキスト説明を追加します。テキストのスタイルもさまざまです:
また、最も興味深く実用的な例は、絵文字を生成することです:
ただし結果にはいくつかの欠陥がありますが、全体的な生成効果はすでに非常に優れています。全体として、この研究の主な貢献は次のとおりです。
- この研究は、いくつかの補助機能を利用する初の漢字画像生成フレームワーク GlyphDraw を提案します。漢字のグリフや位置などの情報は、生成プロセス全体を通じてきめ細かいガイダンスを提供し、漢字画像を高品質で画像にシームレスに埋め込むことができます。このトレーニング戦略では、事前トレーニング済みモデルのトレーニング可能なパラメーターの数を制限して、過剰適合や壊滅的な忘却を防ぎ、モデルの強力なオープンドメイン生成パフォーマンスを効果的に維持しながら、正確な漢字画像の生成を実現します。
- この研究では、トレーニング データセットの構築プロセスを紹介し、OCR モデルを使用した漢字画像生成の品質を評価するための新しいベンチマークを提案します。中でもGlyphDrawは75%の生成精度を達成し、これまでの画像合成手法と比べて大幅に向上した。
研究では、最初に複雑な画像テキスト データ セットを設計しました。次に、以下の図 2 に示すように、オープン ソースの画像合成アルゴリズム Stable Diffusion に基づく一般的な学習フレームワーク GlyphDraw を提案します。
#安定拡散の全体的なトレーニング目標は、次の式で表すことができます。
GlyphDraw は、安定拡散のクロスアテンション メカニズムに基づいており、元の入力潜在ベクトル z_t は、イメージ潜在ベクトル z_t、テキスト マスク l_m、およびグリフ イメージ l_g の連結によって置き換えられます。
さらに、条件 C には、ドメイン固有の融合モジュールを使用したハイブリッド グリフ機能とテキスト機能が装備されています。テキスト マスクとグリフ情報の導入により、トレーニング プロセス全体できめ細かい拡散制御を実現できます。これはモデルのパフォーマンスを向上させるための重要な要素であり、最終的には漢字テキストを含む画像を生成します。
具体的には、テキスト情報、特に象形漢字などの複雑なテキスト形式のピクセル表現は、自然物体とは大きく異なります。たとえば、中国語の「空」という単語は、複数のストロークで二次元構造で構成されており、それに対応する自然イメージは「白い雲が点在する青い空」となります。対照的に、漢字は非常に粒度の細かい特性を持っており、小さな動きや変形によってもテキストのレンダリングが不正確になり、画像生成が不可能になる可能性があります。
自然画像の背景に文字を埋め込むには、隣接する自然画像のピクセルへの影響を回避しながら、テキスト ピクセルの生成を正確に制御するという重要な問題についても考慮する必要があります。自然画像上に完璧な漢字をレンダリングするために、著者らは拡散合成モデルに統合された 2 つの重要なコンポーネント、つまり位置制御とグリフ制御を慎重に設計しました。
他のモデルのグローバル条件付き入力とは異なり、文字生成では、画像の特定の局所領域にさらに注意を払う必要があります。これは、文字ピクセルの潜在特徴分布が自然画像ピクセルの分布とは異なるためです。 。 大きな違い。モデル学習の崩壊を防ぐために、この研究では、異なるエリア間の分布を分離するためのきめ細かい位置エリア制御を革新的に提案しています。
位置制御に加えて、もう 1 つの重要な問題は、漢字のストローク合成の微調整です。漢字の複雑さと多様性を考慮すると、明確な事前知識なしに大規模な画像テキスト データセットから単純に学習することは非常に困難です。漢字を正確に生成するために、この研究では追加の条件情報として明示的なグリフ イメージをモデル拡散プロセスに組み込みます。
実験と結果
漢字画像生成に特に使用されるデータセットがないため、この研究ではまず、ベンチマーク データ セット ChineseDrawText を定性的および定量的評価に使用し、その後、いくつかの方法 (OCR 認識モデルによって評価) の生成精度をテストし、 ChineseDrawText 上で比較しました。
#本研究で提案した GlyphDraw モデルは、補助グリフと位置情報を効果的に使用することで、平均 75% の精度を達成することを示しています。画像生成機能。いくつかの方法の視覚的な比較結果を以下の図に示します。
さらに、GlyphDraw はトレーニングを制限することでオープン ドメインの画像合成パフォーマンスを維持することもできます。一般的な画像合成の FID は、MS-COCO FID-10k で 2.3 しか低下しませんでした。
#興味のある読者は、論文の原文を読んで詳細を学ぶことができます。研究の詳細。
以上が普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力:OPPOなどが提案するGlyphDrawの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。

Sony InteractiveEntertainmentのチーフアーキテクト(SIE、Sony Interactive Entertainment)のMark Cernyは、パフォーマンスアップグレードAMDRDNA2.xアーキテクチャGPU、およびAMDとの機械学習/人工知能プログラムコードノームの「Amethylst」を含む、次世代ホストPlayStation5Pro(PS5PRO)のハードウェアの詳細をリリースしました。 PS5PROパフォーマンスの改善の焦点は、より強力なGPU、高度なレイトレース、AI搭載のPSSRスーパー解像度関数を含む3つの柱に依然としてあります。 GPUは、SonyがRDNA2.xと名付けたカスタマイズされたAMDRDNA2アーキテクチャを採用しており、RDNA3アーキテクチャがあります。

Centosシステムの下でのGitlabのバックアップと回復ポリシーデータセキュリティと回復可能性を確保するために、Gitlab on Centosはさまざまなバックアップ方法を提供します。この記事では、いくつかの一般的なバックアップ方法、構成パラメーター、リカバリプロセスを詳細に紹介し、完全なGitLabバックアップと回復戦略を確立するのに役立ちます。 1.手動バックアップGitlab-RakeGitlabを使用:バックアップ:コマンドを作成して、マニュアルバックアップを実行します。このコマンドは、gitlabリポジトリ、データベース、ユーザー、ユーザーグループ、キー、アクセスなどのキー情報をバックアップします。デフォルトのバックアップファイルは、/var/opt/gitlab/backupsディレクトリに保存されます。 /etc /gitlabを変更できます

CENTOSシステムでHDFS構成をチェックするための完全なガイドこの記事では、CENTOSシステム上のHDFSの構成と実行ステータスを効果的に確認する方法をガイドします。次の手順は、HDFSのセットアップと操作を完全に理解するのに役立ちます。 Hadoop環境変数を確認します。最初に、Hadoop環境変数が正しく設定されていることを確認してください。端末では、次のコマンドを実行して、Hadoopが正しくインストールおよび構成されていることを確認します。HDFS構成をチェックするHDFSファイル:HDFSのコア構成ファイルは/etc/hadoop/conf/ディレクトリにあります。使用

CENTOSでのZookeeperパフォーマンスチューニングは、ハードウェア構成、オペレーティングシステムの最適化、構成パラメーターの調整、監視、メンテナンスなど、複数の側面から開始できます。特定のチューニング方法を次に示します。SSDはハードウェア構成に推奨されます。ZookeeperのデータはDISKに書き込まれます。十分なメモリ:頻繁なディスクの読み取りと書き込みを避けるために、Zookeeperに十分なメモリリソースを割り当てます。マルチコアCPU:マルチコアCPUを使用して、Zookeeperが並行して処理できるようにします。

CentOSシステムでのPytorchモデルの効率的なトレーニングには手順が必要であり、この記事では詳細なガイドが提供されます。 1。環境の準備:Pythonおよび依存関係のインストール:Centosシステムは通常Pythonをプリインストールしますが、バージョンは古い場合があります。 YumまたはDNFを使用してPython 3をインストールし、PIP:sudoyumupdatepython3(またはsudodnfupdatepython3)、pip3install-upgradepipをアップグレードすることをお勧めします。 cuda and cudnn(GPU加速):nvidiagpuを使用する場合は、cudatoolをインストールする必要があります

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

MicrosoftのWindows検索機能に対する改善は、EUのWindows Insiderチャネルでテストされています。以前は、統合されたWindows検索機能はユーザーによって批判されており、経験が不十分でした。この更新は、検索機能を2つの部分に分割します。ローカル検索とBingベースのWeb検索でユーザーエクスペリエンスを向上させます。検索インターフェイスの新しいバージョンは、デフォルトでローカルファイル検索を実行します。オンラインで検索する必要がある場合は、[Microsoft BingWebsearch]タブをクリックして切り替える必要があります。切り替え後、検索バーには「Microsoft BingWebsearch:」が表示され、ユーザーはキーワードを入力できます。この動きにより、ローカル検索結果とBing検索結果の混合が効果的に回避されます
