新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染

王林

Sep 26, 2023 pm 11:53 PM

ai 模型

在過去幾年中，Text-to-Image 領域取得了巨大的進展，特別是在人工智慧生成內容（AIGC）的時代。隨著DALL-E模型的興起，學術界湧現出越來越多的Text-to-Image模型，例如Imagen、Stable Diffusion、ControlNet等模型。然而，儘管Text-to-Image領域發展迅速，現有模型在穩定地產生包含文字的圖像方面仍然面臨一些挑戰

嘗試過現有sota 文生圖模型可以發現，模型生成的文字部分基本上是不可讀的，類似於亂碼，這非常影響圖像的整體美觀。

新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染

現有的sota文字產生模型產生的文字資訊可讀性較差

經過調查，學術界在這方面的研究較少。事實上，包含文字的圖像在日常生活中十分常見，例如海報、書籍封面和路牌等。如果 AI 能夠有效地產生這類圖像，將有助於輔助設計師的工作，激發設計靈感，並減輕設計負擔。除此之外，使用者可能只希望修改文生圖模型結果的文字部分，保留其他非文字區域的結果。

為了不改變原始意思，需要將內容改寫成中文。不需要出現原句

新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染

#論文網址：https://arxiv.org/abs/2305.10855
專案位址：https://jingyechen.github.io/textdiffuser/
程式碼位址： https://github.com/microsoft/unilm/tree/master/textdiffuser
#Demo位址：https://huggingface.co/spaces/microsoft/ TextDiffuser

新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染

#TextDiffuser 的三個功能

##本文提出了TextDiffuser 模型，該模型包含兩個階段，第一階段產生Layout，第二階段產生影像。

新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染

#需要重新寫的是：TextDiffuser框架圖

模型接受一段文字Prompt ，然後根據Prompt 中的關鍵字確定每個關鍵字的Layout（也就是座標框）。研究者採用了 Layout Transformer，使用編碼器-解碼器的形式自回歸地輸出關鍵字的座標框，並以 Python 的 PILLOW 函式庫渲染出文字。在這個過程中，也可以利用 Pillow 現成的 API 得到每個字元的座標框，相當於得到了字元層級的 Box-level segmentation mask。基於此信息，研究者嘗試微調 Stable Diffusion。

他們考慮了兩種情況，一種是使用者想直接產生整張圖片（稱為 Whole-Image Generation）。另一種情況是 Part-Image Generation，在論文中也稱之為 Text-inpainting，指的是使用者給定一張圖像，需要修改圖裡的某些文字區域。

為了實現上述兩個目標，研究人員重新設計了輸入特徵，將維度從原來的4維度增加到了17維。其中包括4維加雜訊影像特徵、8維字元資訊、1維影像遮罩以及4維未遮罩的影像特徵。如果是整體影像生成，研究人員將遮罩區域設為整個影像；反之，如果是部分影像生成，只需對影像的一部分進行遮罩。擴散模型的訓練過程類似於LDM，對此感興趣的同伴可以參考原文中的方法部分描述

#在推理階段，TextDiffuser具有非常靈活的使用方式，可以分為三種：

根據使用者給定的指令產生圖像。而且，如果使用者不大滿意第一步 Layout Generation 產生的佈局，使用者可以更改座標也可以更改文字的內容，這增加了模型的可控性。
直接從第二個階段開始。根據模板圖像產生最終結果，其中模板圖像可以是印刷文字圖像，手寫文字圖像，場景文字圖像。研究者專門訓練了一個字元集分割網路用於從模板影像中提取 Layout。
同樣也是從第二個階段開始，使用者給定圖像並指定需要修改的區域與文字內容。並且，這個操作可以多次進行，直到使用者對產生的結果感到滿意為止。

新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染

所建構的MARIO 資料

為了訓練TextDiffuser，研究人員收集了一千萬張文字影像，如上圖所示，包括三個子集：MARIO-LAION，MARIO-TMDB和MARIO-OpenLibrary

研究者在篩選資料時考慮了若干方面：例如圖像經過OCR 後，只保留文字數量為[1,8] 的圖像。他們篩選了文本數量超過 8 的文本，因為這些文本往往包含大量密集文本，OCR 的結果一般不太準確，例如報紙或複雜的設計圖紙。除此之外，他們設定文字的區域大於 10%，設定這個規則是為了讓文字區域在圖像的比重不要太小。

在 MARIO-10M 資料集進行訓練後，研究人員對 TextDiffuser 進行了定量和定性的比較，與現有方法進行了對比。例如，在整體圖像生成任務中，本文方法生成的圖像具有更清晰可讀的文本，並且文本區域與背景區域的融合更好，如下圖所示

新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染

與現有工作比較文字渲染效能

研究人員也進行了一系列質性實驗，結果如表1所示。評估指標包括FID、CLIPScore和OCR。特別是OCR指標，本研究方法相對於對比方法有顯著的提升

新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染

重寫後的內容：實驗結果見表1：定性實驗

對於Part-Image Generation 任務，研究者嘗試在給定的圖像上增加或修改字符，實驗結果表明TextDiffuser 生成的結果很自然。

新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染

文字修復功能視覺化

總的來說，本文提出的TextDiffuser 模型在文字渲染領域取得了顯著的進展，能夠產生包含易讀文字的高品質影像。未來，研究者將進一步提升 TextDiffuser 的效果。

以上是新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

C 中的字符串流如何使用？ Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下：1.創建輸出字符串流並轉換數據，如將整數轉換為字符串。 2.應用於復雜數據結構的序列化，如將vector轉換為字符串。 3.注意性能問題，避免在處理大量數據時頻繁使用字符串流，可考慮使用std::string的append方法。 4.注意內存管理，避免頻繁創建和銷毀字符串流對象，可以重用或使用std::stringstream。

See all articles

新標題：TextDiffuser：無懼圖像中的文字，提供更高品質的文字渲染

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題