首頁 科技週邊 人工智慧 新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染

新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染

Sep 26, 2023 pm 11:53 PM
ai 模型

在過去幾年中,Text-to-Image 領域取得了巨大的進展,特別是在人工智慧生成內容(AIGC)的時代。隨著DALL-E模型的興起,學術界湧現出越來越多的Text-to-Image模型,例如Imagen、Stable Diffusion、ControlNet等模型。然而,儘管Text-to-Image領域發展迅速,現有模型在穩定地產生包含文字的圖像方面仍然面臨一些挑戰

嘗試過現有sota 文生圖模型可以發現,模型生成的文字部分基本上是不可讀的,類似於亂碼,這非常影響圖像的整體美觀。

新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染

現有的sota文字產生模型產生的文字資訊可讀性較差

經過調查,學術界在這方面的研究較少。事實上,包含文字的圖像在日常生活中十分常見,例如海報、書籍封面和路牌等。如果 AI 能夠有效地產生這類圖像,將有助於輔助設計師的工作,激發設計靈感,並減輕設計負擔。除此之外,使用者可能只希望修改文生圖模型結果的文字部分,保留其他非文字區域的結果。

為了不改變原始意思,需要將內容改寫成中文。不需要出現原句

新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染

  • #論文網址:https://arxiv.org/abs/2305.10855
  • 專案位址:https://jingyechen.github.io/textdiffuser/
  • 程式碼位址: https://github.com/microsoft/unilm/tree/master/textdiffuser
  • #Demo位址:https://huggingface.co/spaces/microsoft/ TextDiffuser

新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染

#TextDiffuser 的三個功能

##本文提出了TextDiffuser 模型,該模型包含兩個階段,第一階段產生Layout,第二階段產生影像。

新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染

#需要重新寫的是:TextDiffuser框架圖

模型接受一段文字Prompt ,然後根據Prompt 中的關鍵字確定每個關鍵字的Layout(也就是座標框)。研究者採用了 Layout Transformer,使用編碼器-解碼器的形式自回歸地輸出關鍵字的座標框,並以 Python 的 PILLOW 函式庫渲染出文字。在這個過程中,也可以利用 Pillow 現成的 API 得到每個字元的座標框,相當於得到了字元層級的 Box-level segmentation mask。基於此信息,研究者嘗試微調 Stable Diffusion。

他們考慮了兩種情況,一種是使用者想直接產生整張圖片(稱為 Whole-Image Generation)。另一種情況是 Part-Image Generation,在論文中也稱之為 Text-inpainting,指的是使用者給定一張圖像,需要修改圖裡的某些文字區域。

為了實現上述兩個目標,研究人員重新設計了輸入特徵,將維度從原來的4維度增加到了17維。其中包括4維加雜訊影像特徵、8維字元資訊、1維影像遮罩以及4維未遮罩的影像特徵。如果是整體影像生成,研究人員將遮罩區域設為整個影像;反之,如果是部分影像生成,只需對影像的一部分進行遮罩。擴散模型的訓練過程類似於LDM,對此感興趣的同伴可以參考原文中的方法部分描述

#在推理階段,TextDiffuser具有非常靈活的使用方式,可以分為三種:

  • 根據使用者給定的指令產生圖像。而且,如果使用者不大滿意第一步 Layout Generation 產生的佈局,使用者可以更改座標也可以更改文字的內容,這增加了模型的可控性。
  • 直接從第二個階段開始。根據模板圖像產生最終結果,其中模板圖像可以是印刷文字圖像,手寫文字圖像,場景文字圖像。研究者專門訓練了一個字元集分割網路用於從模板影像中提取 Layout。
  • 同樣也是從第二個階段開始,使用者給定圖像並指定需要修改的區域與文字內容。並且,這個操作可以多次進行,直到使用者對產生的結果感到滿意為止。

新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染

所建構的MARIO 資料

為了訓練TextDiffuser,研究人員收集了一千萬張文字影像,如上圖所示,包括三個子集:MARIO-LAION,MARIO-TMDB和MARIO-OpenLibrary

研究者在篩選資料時考慮了若干方面:例如圖像經過OCR 後,只保留文字數量為[1,8] 的圖像。他們篩選了文本數量超過 8 的文本,因為這些文本往往包含大量密集文本,OCR 的結果一般不太準確,例如報紙或複雜的設計圖紙。除此之外,他們設定文字的區域大於 10%,設定這個規則是為了讓文字區域在圖像的比重不要太小。

在 MARIO-10M 資料集進行訓練後,研究人員對 TextDiffuser 進行了定量和定性的比較,與現有方法進行了對比。例如,在整體圖像生成任務中,本文方法生成的圖像具有更清晰可讀的文本,並且文本區域與背景區域的融合更好,如下圖所示

新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染

與現有工作比較文字渲染效能

研究人員也進行了一系列質性實驗,結果如表1所示。評估指標包括FID、CLIPScore和OCR。特別是OCR指標,本研究方法相對於對比方法有顯著的提升

新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染

重寫後的內容:實驗結果見表1:定性實驗

對於Part-Image Generation 任務,研究者嘗試在給定的圖像上增加或修改字符,實驗結果表明TextDiffuser 生成的結果很自然。

新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染

文字修復功能視覺化

總的來說,本文提出的TextDiffuser 模型在文字渲染領域取得了顯著的進展,能夠產生包含易讀文字的高品質影像。未來,研究者將進一步提升 TextDiffuser 的效果。

以上是新標題:TextDiffuser:無懼圖像中的文字,提供更高品質的文字渲染的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1317
25
PHP教程
1268
29
C# 教程
1243
24
如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

怎樣在C  中處理高DPI顯示? 怎樣在C 中處理高DPI顯示? Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C  中的實時操作系統編程是什麼? C 中的實時操作系統編程是什麼? Apr 28, 2025 pm 10:15 PM

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

C  中的字符串流如何使用? C 中的字符串流如何使用? Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。

怎樣在C  中測量線程性能? 怎樣在C 中測量線程性能? Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

MySQL批量插入數據的高效方法 MySQL批量插入數據的高效方法 Apr 29, 2025 pm 04:18 PM

MySQL批量插入数据的高效方法包括:1.使用INSERTINTO...VALUES语法,2.利用LOADDATAINFILE命令,3.使用事务处理,4.调整批量大小,5.禁用索引,6.使用INSERTIGNORE或INSERT...ONDUPLICATEKEYUPDATE,这些方法能显著提升数据库操作效率。

See all articles