不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」-人工智慧-PHP中文網

Character-Aware模型

WikiSpell基準

文字產生實驗

DrawText基準

影像產生實驗

首頁

科技週邊

人工智慧

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

王林

Apr 14, 2023 pm 03:16 PM

Google

過去的一年裡，隨著DALL-E 2，Stable Diffusion等圖像生成模型的發布，text-to-image模型生成的圖像在分辨率、質量、文本忠實度等方面都得到了飛躍性提升，極大促進了下游應用場景的開發，人人都成了AI畫家。

但相關研究表明，目前的生成模型技術仍然存在一個重大缺陷：無法在圖像中呈現可靠的視覺文本。

有研究結果表明，DALL-E 2在圖片中產生連貫文字字元上非常不穩定，而最新發布的Stable Diffusion模型則是直接將「無法呈現可讀的文本”列為已知的限制。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

字元拼字錯誤：(1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado : It's Our Nature, (4) St. Louis: All Within Reach.

#最近Google Research發布了一篇新論文，試圖了解並提高圖像生成模型渲染高品質視覺文本的能力。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

論文連結：https://arxiv.org/abs/2212.10562

研究人員認為當下的text-to-image生成模型模型存在文字渲染缺陷的主要原因是缺乏字元級的輸入特徵。

為了量化該輸入特徵在模型產生中的影響，文章中設計了一系列控制實驗對是否包含文字輸入特徵的文字編碼器（character-aware和character-blind ）進行對比。

研究人員發現，在純文字領域，character-aware模型在一個新的拼字任務（WikiSpell）上獲得了很大的效能效益。

將該經驗遷移到視覺領域後，研究人員訓練了一套圖像生成模型。實驗結果顯示character-aware模型在一系列新的文字渲染任務（DrawText基準）中比character-blind更勝一籌。

並且character-aware模型在視覺拼字方面達到了更高的技術水平，儘管訓練的範例數量少得多，其在不常見的單字上的準確率仍然比競爭模型高出30多個百分點。

Character-Aware模型

語言模型可分為直接存取構成其文字輸入字元的character-aware模型和無法存取的character-blind模型。

許多早期的神經語言模型直接在字元上進行操作，而不使用多重字元的token作為標記。

後來的模型逐漸轉向基於詞彙表的tokenization，其中一些模型如ELMo仍然保留了character-aware，但其他模型如BERT則放棄了字符特徵以支持更有效的預訓練。

目前，大多數廣泛使用的語言模型是character-blind的，依靠資料驅動的子詞（subword）分割演算法，如位元組對編碼（BPE）來產生子詞pieces作為詞彙表。

雖然這些方法對於不常見的序列可以退回到字元層級表示，但它們在設計上仍然會將常見的字元序列壓縮成不可分割的單元。

這篇論文的主要目的是試圖了解並提高圖像生成模型渲染高品質視覺文字的能力。

為此，研究人員首先孤立地研究了當下文字編碼器的拼字能力，從實驗結果可以發現，儘管character-blind文字編碼器很受歡迎，但它們沒有收到關於其輸入的字元級構成的直接訊號，導致其拼字能力有限。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

研究人員也測試了不同規模、架構、輸入表示、語言和調整方法的文字編碼器的拼字能力。

這篇論文首次記錄了character-blind模型透過網路預訓練誘導強大的拼字知識（準確率>99%）的神奇能力，但實驗結果顯示這項能力在英語以外的語言中並沒有很好的泛化，而且只有在超過100B參數的規模下才能實現，所以對於大多數應用場景是不可行的。

另一方面，character-aware的文字編碼器能夠在更小的尺度上實現強大的拼字能力。

在將這些發現應用於圖像生成場景時，研究人員訓練了一系列character-aware的文本到圖像的模型，並證明它們在現有的和新的文本渲染的評估中明顯優於字元盲目的模型。

但對於純字元級模型來說，雖然文字渲染的效能提升了，但對於不涉及視覺文字的prompt，圖像-文字對齊度則會下降。

為了緩解這個問題，研究人員建議將字元級和token級的輸入表徵結合起來，從而可以實現最佳的效能。

WikiSpell基準

由於文字到圖像的生成模型依賴於文字編碼器來產生用於解碼的表徵，研究人員首先從Wiktionary中取樣一些單字創建了WikiSpell基準，然後基於此資料集在一個純文字的拼字評估任務來探索文字編碼器的能力。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

對於WikiSpell中的每個範例，模型的輸入是一個單詞，預期的輸出是它的特定拼字（透過在每個Unicode字元之間插入空格來產生）。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

由於文章僅對研究一個單字的頻率和模型的拼字能力之間的關係感興趣，所以研究人員根據單字在mC4語料庫中出現的頻率，將Wiktionary中的詞分成五個互不重疊的桶：最頻繁的前1%的詞，最頻繁的1-10%的詞，10-20%的詞，20-30%的詞，以及最低的50%的詞（包括在語料庫中從未出現過的詞）。

然後從每個桶中均勻地抽取1000個字來建立一個測試集（以及一個類似的開發集）。

最後透過結合兩部分建立了一個由10,000個字組成的訓練集：5,000個從最底層的50%桶（最不常見的詞）中統一取樣，另外5,000個根據它們在mC4中的頻率按比例取樣（從而使這一半的訓練集偏向頻繁的詞）。

研究者將任何被選入開發集或測試集的單字排除在訓練集之外，因此評估結果總是針對被排除的單字。

除了英語外，研究人員也對其他六種語言（阿拉伯語、中文、芬蘭語、韓語、俄語、泰語）進行評估，選擇這些語言是為了涵蓋影響模型學習拼字能力的各種特性，對每一種語言的評估都重複上述資料集建構過程。

文字產生實驗

研究人員使用WikiSpell基準來評估多種預訓練的純文字模型在不同規模上的表現，包括T5（一個在英語數據上預訓練的character-blind編碼解碼器模型）；mT5（與T5類似，但在超過100種語言上預先訓練）；ByT5（mT5的character-aware版本，直接在UTF-8位元組序列上操作）；以及PaLM（一個規模更大的解碼模型，主要是在英語上預先訓練的）。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

在純英語和多語言的實驗結果中，可以發現character-blind模型T5和mT5在包含Top-1%最頻繁詞彙的桶上的表現要差很多。

這個結果似乎是反直覺的，因為模型通常在資料中頻繁出現的例子上表現最好，但由於subword詞彙的訓練方式，頻繁出現的單字通常被表示為一個單一的原子標記（或少量的標記），事實上也是如此：在英語前1%的桶中，87%的詞被T5的詞彙表示為一個子詞標記。

因此，較低的拼字準確度分數表明，T5的編碼器沒有保留足夠的關於其詞彙中subword的拼字資訊。

其次，對於character-blind模型，規模是影響拼字能力的重要因素。 T5和mT5都隨著規模的增加而逐漸變好，但即使在XXL規模下，這些模型也沒有表現出特別強的拼字能力。

只有當character-blind模型達到PaLM的規模時，才開始看到近乎完美的拼字能力：540B參數的PaLM模型在英文的所有頻率桶中都達到了> 99%的準確率，儘管它在提示中只看到20個例子（而T5顯示的是1000個微調例子）。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

然而，PaLM在其他語言上的表現較差，可能是由於這些語言的預訓練資料少得多。

對ByT5的實驗表明，character-aware模型表現出更強大的拼字能力。 ByT5在Base和Large尺寸下的表現僅略微落後於XL和XXL（儘管仍然至少在90%的範圍內），而且一個字的頻率似乎對ByT5的拼字能力沒有太大影響。

ByT5的拼字表現遠遠超過了(m)T5的結果，甚至與參數多於100倍的PaLM的英文表現相當，並且超過了PaLM在其他語言上的表現。

從而可知ByT5編碼器保留了相當多的字元級訊息，而且這些資訊可以根據解碼任務的需要從這些凍結的參數中檢索出來。

DrawText基準

從2014年發布的COCO資料集到2022年的DrawBench基準，從FID, CLIP得分到人類偏好等指標，如何評估text- to-image模型一直是重要的研究主題。

但目前在文字渲染和拼字評估方面一直缺乏相關工作。

為此，研究人員提出了一個新的基準DrawText，旨在全面衡量文字到圖像模型的文字渲染品質。

DrawText基準由兩部分組成，分別測量模型能力的不同維度：

1）DrawText Spell，透過大量的英語單字集合的普通單字渲染進行評估；

研究人員從英語WikiSpell頻率桶中各抽取100個單詞，並將它們插入一個標準模板中，總共構建了500個提示。

對於每個prompt，從候選模型中抽取4張圖片，並使用人類評分和基於光學字元辨識（OCR）的指標對其進行評估。

2）DrawText Creative，透過視覺效果的文字渲染進行評估。

視覺文本並不局限於像街道標誌那樣的常見場景，文字可以以多種形式出現，如潦草的、繪畫的、雕刻的、雕塑的，等等。

如果圖像生成模型支援靈活且準確的文字渲染，這將使設計師能夠使用這些模型來開發創造性的字體、標誌、佈局等等。

為了測試圖像生成模型支援這些用例的能力，研究人員與一位專業的圖形設計師合作，構建了175個不同的提示，要求在一系列創造性的風格和設置中渲染文本。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

許多提示超出了目前模型的能力，最先進的模型會表現出拼字錯誤、丟棄或重複的單字。

影像產生實驗

實驗結果顯示，用於對比的9個影像產生模型中在DrawText Spell基準上的準確率中，character-aware模型（ ByT5和Concat）無論模型尺寸大小都優於其他模型，特別是在不常見單字上。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

Imagen-AR顯示了避免cropping的好處，儘管訓練時間長了6.6倍，其仍然比字character-aware模型表現差。

模型之間的另一個明顯的區別在於它們是否在多個樣本中持續地拼錯一個給定的單字。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

在實驗結果中可以看出，無論抽取多少個樣本，T5模型都有許多單字拼錯，研究人員認為這表明文本編碼器中缺少字符知識。

相較之下，ByT5模型基本上只會出現零星的錯誤。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

透過測量模型在所有四個影像樣本中持續正確（4/4）或持續誤差（0/4）的比率可以量化這一觀察結果。

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

可以看到一個鮮明的對比，特別是在常見的單字上（前1%），即ByT5模型從未持續錯誤，而T5模型在10%或更多的字上持續錯誤。

以上是不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

加密數字資產交易APP推薦top10（2025全球排名） Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台，涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋，例如币安以其全球最大的交易量和丰富的功能著称，而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。希望本文能帮助您找到最适合自

歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP，輸入手機號或郵箱註冊，完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服，提供必要信息並等待處理，最終獲得賬號註銷確認。通過本文，用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理，安全便捷地進行數字資產交易。

binance怎麼註冊詳細教程（2025新手指南） Mar 18, 2025 pm 01:57 PM

本文提供Binance幣安註冊及安全設置的完整指南，涵蓋註冊前的準備工作（包括設備、郵箱、手機號及身份證明文件準備），詳細介紹了官網及APP兩種註冊方式，以及不同級別的身份驗證（KYC）流程。此外，文章還重點講解瞭如何設置資金密碼、開啟雙重驗證（2FA，包括谷歌身份驗證器和短信驗證）以及設置防釣魚碼等關鍵安全步驟，幫助用戶安全便捷地註冊和使用Binance幣安平台進行加密貨幣交易。請務必在交易前了解相關法律法規及市場風險，謹慎投資。

如何優化jieba分詞以改善景區評論的關鍵詞提取效果？ Apr 01, 2025 pm 06:24 PM

如何優化jieba分詞以改善景區評論的關鍵詞提取？在使用jieba分詞處理景區評論數據時，如果發現分詞結果不理�...

gate.io手機app使用教程 Mar 26, 2025 pm 05:15 PM

gate.io手機app使用教程：1、安卓用戶，訪問 Gate.io 官方網站，下載安卓安裝包，您可能需要在手機設置中允許安裝來自未知來源的應用；2、ios用戶，在 App Store 中搜索 "Gate.io" 下載。

虛擬幣最老的幣排行榜最新更新 Apr 22, 2025 am 07:18 AM

虛擬貨幣“最老”排行榜如下：1. 比特幣（BTC），發行於2009年1月3日，是首個去中心化數字貨幣。 2. 萊特幣（LTC），發行於2011年10月7日，被稱為“比特幣的輕量版”。 3. 瑞波幣（XRP），發行於2011年，專為跨境支付設計。 4. 狗狗幣（DOGE），發行於2013年12月6日，基於萊特幣代碼的“迷因幣”。 5. 以太坊（ETH），發行於2015年7月30日，首個支持智能合約的平台。 6. 泰達幣（USDT），發行於2014年，是首個與美元1:1錨定的穩定幣。 7. 艾達幣（ADA），發

okex交易平台官網登錄入口 Mar 18, 2025 pm 12:42 PM

本文詳細介紹了歐易OKEx網頁版登錄的完整步驟，包括準備工作（確保網絡連接穩定及瀏覽器更新）、訪問官網（注意網址準確性，避免釣魚網站）、找到登錄入口（點擊官網首頁右上角的“登錄”按鈕）、輸入登錄信息（郵箱/手機號及密碼，支持驗證碼登錄）、完成安全驗證（滑動驗證、谷歌驗證或短信驗證）等五個步驟，最終成功登錄後即可進行數字資產交易等操作。安全便捷的登錄流程，保障用戶資產安全。

虛擬幣購買app安全靠譜的top10推薦 Mar 18, 2025 pm 12:12 PM

2025年全球虛擬幣交易平台Top 10推薦，助您玩轉數字貨幣市場！本文將為您深度解析幣安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所等十家頂級平台的核心優勢和特色功能。無論是追求高流動性、豐富的交易類型，還是注重安全合規、創新功能，都能在此找到適合您的平台。我們將從交易品種、安全性、特色功能等方面進行全面對比，助您選擇最合適的虛擬貨幣交易平台，把握2025年數字貨幣投資機遇

See all articles

不做文盲畫家！谷歌魔改「文字編碼器」：一個小操作讓圖像生成模型學會「拼字」

Character-Aware模型

WikiSpell基準

文字產生實驗

DrawText基準

影像產生實驗

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題