谷歌新AI火了！世界最長單字都能畫-人工智慧-PHP中文網

#可擴展到200億參數：更逼真，更「聰明」

Google「自己捲自己」

One More Thing

首頁

科技週邊

人工智慧

谷歌新AI火了！世界最長單字都能畫

王林

Apr 09, 2023 pm 09:51 PM

Google ai parti

朋友，你知道這個英文單字是什麼嗎？

Pneumonoultramicroscopicsilicovolcanoconiosis.

這個世界公認最長－由45個字母組成的單詞，意思是「因肺部沉積火山矽質微粒所引起的疾病」（俗稱火山矽肺病）。

但如果說，現在不是讓你拼讀這個單字，而是…把它給畫出來呢？

（讀都讀不出來，還畫畫？？？）

Google最新提出來的一個AI－Parti，它就能輕鬆hold住這事。

在把這個字「投餵」給Parti後，它就能有模有樣地生成多張合情合理的肺部疾病圖片：

谷歌新AI火了！世界最長單字都能畫

但這只是Parti小試牛刀的能力，根據Google介紹，它是目前最先進的「文字轉圖像」AI。

例如，跟它說句：“把悉尼歌劇院和巴黎鐵塔做個結合”，輸出結果是這樣的：

谷歌新AI火了！世界最長單字都能畫

（不知道的還真以為是畫報呢）

而且在演算法路數上，還不同於Google自家的Imagen，Parti可以說是把「AI作畫」捲出了新高度。

谷歌新AI火了！世界最長單字都能畫

就連GoogleAI負責人Jeff Dean也連發數條推文，玩得不亦樂乎：

谷歌新AI火了！世界最長單字都能畫

#可擴展到200億參數：更逼真，更「聰明」

#事實上，Parti的能力還不止於此。

得益於模型可擴展到200億參數，一方面，它產生的影像更加細節逼真。

不管是短短幾個字，還是五十多個單字的小段落，都能清晰展現出來。

例如，The back of a violin，小提琴的背面。

谷歌新AI火了！世界最長單字都能畫

也或是照著梵谷《星空》來描述的夜晚畫面。 ps，這段有67個單字。

谷歌新AI火了！世界最長單字都能畫

結果Parti也不在話下，一攬子把各種風格的圖全畫給你了~

谷歌新AI火了！世界最長單字都能畫

# #這也正是Parti的第二大能力，不光細節到位，風格也能做到多變。

還有像「浣熊穿正裝，頭戴禮帽，拄著拐杖，拿著個垃圾袋」這種奇特的描述，它也能在整出花活的同時還不落細節。

風格上，則有梵谷風、埃及法老風、像素風、中國傳統繪畫風、抽象主義風…

谷歌新AI火了！世界最長單字都能畫

甚至有時候它還會講雙關笑話。

谷歌新AI火了！世界最長單字都能畫

（Toad'ay，癩蛤蟆）

具體在測試結果上，MS-COCO、Localized Narrative（LN，4倍長的描述）上FID分數，Parti都取得了最先進的結果。

谷歌新AI火了！世界最長單字都能畫

尤其在MS-COCO零樣本的FID得分僅為7.23，微調FID得分為3.22，超過了先前的Imagen和DALL-E 2。

所有元件都是Transformer

時隔一個月，Google再把AI作畫捲出新高度，結果作者卻說：秘訣很簡單。

谷歌新AI火了！世界最長單字都能畫

Parti主要是將文字產生圖像視為序列到序列之間建模。這有點類似於機器翻譯，將文字標記作為編碼器的輸入，目標輸出從文字變成了圖像。

從結構上看，它的所有元件只有三個部分：編碼器、解碼器以及圖像標記器，而且都是基於標準Transformer。

谷歌新AI火了！世界最長單字都能畫

首先，使用基於Transformer的影像標記器ViT-VQGAN，將影像編碼為離散的標記序列。

接著再透過Transformer的編碼-解碼結構，將參數擴展到200億。

以往關於文本生成圖像的研究，除了最早出現的GAN，大體可以分成兩種思路。

一種是基於自迴歸模型，先文字特徵對應到影像特徵，再使用類似Transformer的序列架構，來學習語言輸入與影像輸出之間的關係。

這種方法的關鍵組成部分是影像標記器，將每個影像轉換為離散單元的序列。例如DALL-E和CogView，就採用了這一思路。

另一種則是這段時間以來進展頻頻的路線－基於擴散的文字到影像模型，例如DALL-E 2和Imagen。

他們摒棄了影像標記器，而是採用擴散模型來直接產生影像。可以看到的是，這些模型產生的影像品質較高，在MS-COCO零樣本FID得分較好。

谷歌新AI火了！世界最長單字都能畫

而Parti模型的成功，證明了自迴歸模型可以用來改善文字產生圖像的效果。

同時，Parti也引進並發布了新的基準測試－PartiPrompts，用於衡量模型在12個類別和11個挑戰方面的能力。

谷歌新AI火了！世界最長單字都能畫

但Parti還是有一定的局限性，研究人員也展示了一些bug：

比如，對否定的描述就沒招了~

一個沒有香蕉的盤子，旁邊一個沒有柳橙汁兒的玻璃杯。

谷歌新AI火了！世界最長單字都能畫

也會犯一些常識性錯誤，例如不合理地縮放。例如這張圖，機器人竟然比賽車高出好幾倍。

谷歌新AI火了！世界最長單字都能畫

一個穿著賽車服和黑色遮陽板的閃亮機器人自豪地站在一輛F1賽車前。太陽落在城市景觀上。漫畫書插圖。

Google「自己捲自己」

在這項研究來自Google Research，團隊中的華人居多。

谷歌新AI火了！世界最長單字都能畫

研究核心工作人員包括Yuanzhong Xu、Thang Luong等，目前均就職於Google從事AI相關研究工作。

（Thang Luong在Google學術上的引用量高達20000 ）

谷歌新AI火了！世界最長單字都能畫

△左：Yuanzhong Xu；右：Thang Luong

#不過有趣的是，同為“說句話讓AI作畫”，同為出自谷歌之手的Imagen，它跟Parti還真有點千絲萬縷的關係。

在Parti的GitHub的專案文件中就有提到：

#感謝Imagen團隊，他們在發布Imagen之前與我們分享了其最近完整的結果。

他們在CF-guidance方面的重要發現，對最終的Parti模型特別有幫助。

谷歌新AI火了！世界最長單字都能畫

而且Imagen的作者之一Burcu Karagol Ayan，也參與了Parti的計畫中。

（有種谷歌「自己捲自己」那味了）

#不只如此，就連「隔壁」DALL-E 2的作者Aditya Ramesh，也給Parti在MS-COCO評價方面做了討論工作。

以及DALL-Eval的作者們，也在Parti資料方面的工作提供了幫助。

One More Thing

有說一，就「文字產生圖像」這事，可不只是研究人員們的寵兒。

網友們在「玩」它這條路上，也是樂此不疲（腦洞不要太大好吧）。

前一陣子讓Imagen畫一幅宋朝“虎戴VR”，直接演變成AI作畫大戰。

谷歌新AI火了！世界最長單字都能畫

△圖：Imagen作畫

DALL·E、MidJourney等「聞訊趕來」參與其中。

谷歌新AI火了！世界最長單字都能畫

△ DALL·E作畫

#甚至還有把Wordle和DALL-E 2搞到一起的：

谷歌新AI火了！世界最長單字都能畫

#…

不過回歸到這次的Parti，好玩歸好玩，但還是有網友提出了「直擊靈魂」的問題：

谷歌新AI火了！世界最長單字都能畫

啥時候商業化？要是自己「關門玩」就沒意思了。

Parti論文網址：

https://parti.research.google/

GitHub專案網址：

https://github.com/google-research/parti

#參考連結：

##[1]https:/ /twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289[3]https://imagen.research .google/

以上是谷歌新AI火了！世界最長單字都能畫的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1324

PHP教程

1272

C# 教程

1251

Related knowledge

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：

deepseek官網是如何實現鼠標滾動事件穿透效果的？ Apr 30, 2025 pm 03:21 PM

如何實現鼠標滾動事件穿透效果？在我們瀏覽網頁時，經常會遇到一些特別的交互設計。比如在deepseek官網上，�...

MySQL批量插入數據的高效方法 Apr 29, 2025 pm 04:18 PM

MySQL批量插入数据的高效方法包括：1.使用INSERTINTO...VALUES语法，2.利用LOADDATAINFILE命令，3.使用事务处理，4.调整批量大小，5.禁用索引，6.使用INSERTIGNORE或INSERT...ONDUPLICATEKEYUPDATE，这些方法能显著提升数据库操作效率。

如何使用MySQL的函數進行數據處理和計算 Apr 29, 2025 pm 04:21 PM

MySQL函數可用於數據處理和計算。 1.基本用法包括字符串處理、日期計算和數學運算。 2.高級用法涉及結合多個函數實現複雜操作。 3.性能優化需避免在WHERE子句中使用函數，並使用GROUPBY和臨時表。

數字虛擬幣交易平台top10 安全可靠的十大數字貨幣交易所 Apr 30, 2025 pm 04:30 PM

數字虛擬幣交易平台top10分別是：1. Binance，2. OKX，3. Coinbase，4. Kraken，5. Huobi Global，6. Bitfinex，7. KuCoin，8. Gemini，9. Bitstamp，10. Bittrex，這些平台均提供高安全性和多種交易選項，適用於不同用戶需求。

輕鬆協議（Easeprotocol.com）將ISO 20022消息標准直接實現為區塊鏈智能合約 Apr 30, 2025 pm 05:06 PM

這種開創性的開發將使金融機構能夠利用全球認可的ISO20022標準來自動化不同區塊鏈生態系統的銀行業務流程。 Ease協議是一個企業級區塊鏈平台，旨在通過易用的方式促進廣泛採用，今日宣布已成功集成ISO20022消息傳遞標準，直接將其納入區塊鏈智能合約。這一開發將使金融機構能夠使用全球認可的ISO20022標準，輕鬆自動化不同區塊鏈生態系統的銀行業務流程，該標準正在取代Swift消息傳遞系統。這些功能將很快在“EaseTestnet”上進行試用。 EaseProtocolArchitectDou

如何分析MySQL查詢的執行計劃 Apr 29, 2025 pm 04:12 PM

使用EXPLAIN命令可以分析MySQL查詢的執行計劃。 1.EXPLAIN命令顯示查詢的執行計劃，幫助找出性能瓶頸。 2.執行計劃包括id、select_type、table、type、possible_keys、key、key_len、ref、rows和Extra等字段。 3.根據執行計劃，可以通過添加索引、避免全表掃描、優化JOIN操作和使用覆蓋索引來優化查詢。

See all articles

谷歌新AI火了！世界最長單字都能畫

#可擴展到200億參數：更逼真，更「聰明」

Google「自己捲自己」

One More Thing

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題