首頁 > 科技週邊 > 人工智慧 > 谷歌新AI火了!世界最長單字都能畫

谷歌新AI火了!世界最長單字都能畫

王林
發布: 2023-04-09 21:51:05
轉載
1580 人瀏覽過

朋友,你知道這個英文單字是什麼嗎?

Pneumonoultramicroscopicsilicovolcanoconiosis.

這個世界公認最長-由45個字母組成的單詞,意思是「因肺部沉積火山矽質微粒所引起的疾病」(俗稱火山矽肺病)。

但如果說,現在不是讓你拼讀這個單字,而是…把它給畫出來呢?

(讀都讀不出來,還畫畫???)

Google最新提出來的一個AI-Parti,它就能輕鬆hold住這事。

在把這個字「投餵」給Parti後,它就能有模有樣地生成多張合情合理的肺部疾病圖片:

谷歌新AI火了!世界最長單字都能畫

但這只是Parti小試牛刀的能力,根據Google介紹,它是目前最先進的「文字轉圖像」AI。

例如,跟它說句:“把悉尼歌劇院和巴黎鐵塔做個結合”,輸出結果是這樣的:

谷歌新AI火了!世界最長單字都能畫

(不知道的還真以為是畫報呢)

而且在演算法路數上,還不同於Google自家的Imagen,Parti可以說是把「AI作畫」捲出了新高度。

谷歌新AI火了!世界最長單字都能畫

就連GoogleAI負責人Jeff Dean也連發數條推文,玩得不亦樂乎:

谷歌新AI火了!世界最長單字都能畫

#可擴展到200億參數:更逼真,更「聰明」

#事實上,Parti的能力還不止於此。

得益於模型可擴展到200億參數,一方面,它產生的影像更加細節逼真。

不管是短短幾個字,還是五十多個單字的小段落,都能清晰展現出來。

例如,The back of a violin,小提琴的背面。

谷歌新AI火了!世界最長單字都能畫

也或是照著梵谷《星空》來描述的夜晚畫面。 ps,這段有67個單字。

谷歌新AI火了!世界最長單字都能畫

結果Parti也不在話下,一攬子把各種風格的圖全畫給你了~

谷歌新AI火了!世界最長單字都能畫

# #這也正是Parti的第二大能力,不光細節到位,風格也能做到多變。

還有像「浣熊穿正裝,頭戴禮帽,拄著拐杖,拿著個垃圾袋」這種奇特的描述,它也能在整出花活的同時還不落細節。

風格上,則有梵谷風、埃及法老風、像素風、中國傳統繪畫風、抽象主義風…

谷歌新AI火了!世界最長單字都能畫

甚至有時候它還會講雙關笑話。

谷歌新AI火了!世界最長單字都能畫

(Toad'ay,癩蛤蟆)

具體在測試結果上,MS-COCO、Localized Narrative(LN,4倍長的描述)上FID分數,Parti都取得了最先進的結果。

谷歌新AI火了!世界最長單字都能畫

尤其在MS-COCO零樣本的FID得分僅為7.23,微調FID得分為3.22,超過了先前的Imagen和DALL-E 2。

所有元件都是Transformer

時隔一個月,Google再把AI作畫捲出新高度,結果作者卻說:秘訣很簡單。

谷歌新AI火了!世界最長單字都能畫

Parti主要是將文字產生圖像視為序列到序列之間建模。這有點類似於機器翻譯,將文字標記作為編碼器的輸入,目標​​輸出從文字變成了圖像。

從結構上看,它的所有元件只有三個部分:編碼器、解碼器以及圖像標記器,而且都是基於標準Transformer。

谷歌新AI火了!世界最長單字都能畫

首先,使用基於Transformer的影像標記器ViT-VQGAN,將影像編碼為離散的標記序列。

接著再透過Transformer的編碼-解碼結構,將參數擴展到200億。

以往關於文本生成圖像的研究,除了最早出現的GAN,大體可以分成兩種思路。

一種是基於自迴歸模型,先文字特徵對應到影像特徵,再使用類似Transformer的序列架構,來學習語言輸入與影像輸出之間的關係。

這種方法的關鍵組成部分是影像標記器,將每個影像轉換為離散單元的序列。例如DALL-E和CogView,就採用了這一思路。

另一種則是這段時間以來進展頻頻的路線-基於擴散的文字到影像模型,例如DALL-E 2和Imagen。

他們摒棄了影像標記器,而是採用擴散模型來直接產生影像。可以看到的是,這些模型產生的影像品質較高,在MS-COCO零樣本FID得分較好。

谷歌新AI火了!世界最長單字都能畫

而Parti模型的成功,證明了自迴歸模型可以用來改善文字產生圖像的效果。

同時,Parti也引進並發布了新的基準測試-PartiPrompts,用於衡量模型在12個類別和11個挑戰方面的能力。

谷歌新AI火了!世界最長單字都能畫

但Parti還是有一定的局限性,研究人員也展示了一些bug:

比如,對否定的描述就沒招了~

一個沒有香蕉的盤子,旁邊一個沒有柳橙汁兒的玻璃杯。

谷歌新AI火了!世界最長單字都能畫

也會犯一些常識性錯誤,例如不合理地縮放。例如這張圖,機器人竟然比賽車高出好幾倍。

谷歌新AI火了!世界最長單字都能畫

一個穿著賽車服和黑色遮陽板的閃亮機器人自豪地站在一輛F1賽車前。太陽落在城市景觀上。漫畫書插圖。

Google「自己捲自己」

在這項研究來自Google Research,團隊中的華人居多。

谷歌新AI火了!世界最長單字都能畫

研究核心工作人員包括Yuanzhong Xu、Thang Luong等,目前均就職於Google從事AI相關研究工作。

(Thang Luong在Google學術上的引用量高達20000 )

谷歌新AI火了!世界最長單字都能畫

△左:Yuanzhong Xu;右:Thang Luong

#不過有趣的是,同為“說句話讓AI作畫”,同為出自谷歌之手的Imagen,它跟Parti還真有點千絲萬縷的關係。

在Parti的GitHub的專案文件中就有提到:

#感謝Imagen團隊,他們在發布Imagen之前與我們分享了其最近完整的結果。

他們在CF-guidance方面的重要發現,對最終的Parti模型特別有幫助。

谷歌新AI火了!世界最長單字都能畫

而且Imagen的作者之一Burcu Karagol Ayan,也參與了Parti的計畫中。

(有種谷歌「自己捲自己」那味了)

#不只如此,就連「隔壁」DALL-E 2的作者Aditya Ramesh,也給Parti在MS-COCO評價方面做了討論工作。

以及DALL-Eval的作者們,也在Parti資料方面的工作提供了幫助。

One More Thing

有說一,就「文字產生圖像」這事,可不只是研究人員們的寵兒。

網友們在「玩」它這條路上,也是樂此不疲(腦洞不要太大好吧)。

前一陣子讓Imagen畫一幅宋朝“虎戴VR”,直接演變成AI作畫大戰。

谷歌新AI火了!世界最長單字都能畫

△圖:Imagen作畫

DALL·E、MidJourney等「聞訊趕來」參與其中。

谷歌新AI火了!世界最長單字都能畫

△ DALL·E作畫

#甚至還有把Wordle和DALL-E 2搞到一起的:

谷歌新AI火了!世界最長單字都能畫

#…

不過回歸到這次的Parti,好玩歸好玩,但還是有網友提出了「直擊靈魂」的問題:

谷歌新AI火了!世界最長單字都能畫

啥時候商業化?要是自己「關門玩」就沒意思了。

Parti論文網址:

https://parti.research.google/

GitHub專案網址:

https://github.com/google-research/parti

#參考連結:

##[1]https:/ /twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289[3]https://imagen.research .google/

以上是谷歌新AI火了!世界最長單字都能畫的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板