效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS-人工智慧-PHP中文網

比DALL·E 2和Imagen更有效率

從上到下依序為：預訓練的文字編碼器、基礎模型、超解析度模型

FID上獲SOTA分數

研究團隊

首頁

科技週邊

人工智慧

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

王林

Apr 11, 2023 pm 01:49 PM

模型效果 muse

新年伊始，GoogleAI又開始發力文字-圖像生成模型了。

這次，他們的新模型Muse（繆斯）在CC3M資料集上達成了新SOTA（目前最佳水準）。

且其效率遠超熱門全球的DALL·E 2和Imagen （這兩個都屬於擴散模型），以及Parti （屬於自回歸模型）。

——單張512x512解析度影像的生成時間被壓縮到僅1.3秒。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

在影像編輯方面，只需一句文字指令，就可以對原始影像進行編輯。

（似乎不用再為學ps頭禿了~）

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

#如果想要效果更精準，還能選定遮罩位置，編輯特定區域。例如，把背景的建築換成熱氣球。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

Muse一經官宣，很快就吸引了大波關注，目前原貼已收穫4000 點讚。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

看到Google的又一力作，有人甚至已經開始預言：

現在AI開發者的競爭非常激烈，看來2023將會是非常精彩的一年。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

比DALL·E 2和Imagen更有效率

說回Google剛剛公開的Muse。

首先，就生成圖片的品質來說，Muse的作品大都畫質清晰、效果自然。

來看看更多例子感受一下~

例如戴著毛線帽的樹懶寶寶正在操作電腦；再例如酒杯中的一隻羊：

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

平時八竿子打不著的各種主體，在一張圖裡和諧共存，沒啥違和感。

要是你覺得這些還只能算AIGC的基操，那不妨再看看Muse的編輯功能。

例如一鍵換裝（還能換性別）：

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

這既不需要加什麼遮罩，還能一句話搞定。

而如果用上遮罩的話，就能實現更6的操作，包括一鍵切換背景，從原地切換到紐約、巴黎、再到舊金山。

還能從海邊到倫敦、到花海，甚至飛到太空中的土星環上，玩一把刺激的滑板海豚跳。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

（好傢伙，不僅能輕鬆雲旅遊，還能一鍵上天......）

效果著實挺出色。那Muse背後都有哪些技術支援？為什麼效率比DALL·E 2和Imagen更高？

一個重要的原因是，DALL·E 2和Imagen在訓練過程中，需要將所有學到的知識都儲存在模型參數中。

於是，它們不得不需要越來越大的模型、越來越多的訓練資料來獲取更多知識——將Better和Bigger綁在了一起。

代價就是參數量龐大，效率也受到了影響。

而根據GoogleAI團隊介紹，他們採用的主要方法名曰：掩碼影像建模（Masked image modeling）。

這是一種新興的自我監督預訓練方法，其基本想法簡單來說就是：

輸入影像的一部分被隨機屏蔽掉，然後透過預訓練文字任務進行重建。

Muse模型在離散標記的空間遮罩上訓練，並結合從預訓練語言大模型中提取的文本，預測隨機遮蔽的圖像標記。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

從上到下依序為：預訓練的文字編碼器、基礎模型、超解析度模型

Google團隊發現，使用預先訓練好的大語言模型，可以讓AI對語言的理解更加細緻透徹。

就輸出而言，由於AI對物體的空間關係、姿態等要素把握得很不錯，所以生成的圖像可以做到高保真。

與DALL·E 2、Imagen等像素空間的擴散模型相比，Muse用的是離散的token，且取樣迭代較少。

另外，和Parti等自迴歸模型相比，Muse使用了平行解碼，效率也更高。

FID上獲SOTA分數

前文提到，Muse不僅在效率上取得了提升，在生成影像品質上也非常優秀。

研究者把它與DALL·E、LAFITE、LDM、GLIDE、DALL·E 2，以及谷歌自家的Imagen和Parti進行PK，測試了它們的FID和CLIP分數。

（FID分數用於評估生成影像的質量，分數越低質量越高；CLIP分數則代表文字與影像的契合程度，分數越高越好。）

結果顯示，Muse-3B模型在COCO驗證集中的zero-shot FID-30K得分為7.88，僅次於參數較大的Imagen-3.4B和Parti-20B模型。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

更優秀的是，Muse-900M模型在CC3M資料集上實現了新的SOTA，FID分數為6.06，這也意味著它與文字的匹配度是最高的。

同時，此模型的CLIP分數為0.26，也達到了同期最高水準。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

除此之外，為了進一步證實Muse的出圖效率，研究者也比較了Muse與其他模型的單張影像產生時間：

#在256x256、512x512的解析度上Muse均達到了最快速度：0.5s和1.3s。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

研究團隊

Muse的研究團隊來自Google，兩位共同一作分別是Huiwen Chang和Han Zhang。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

Huiwen Chang，現為Google資深研究員。

她本科就讀於清華大學，博士畢業於普林斯頓大學，有在Adobe、Facebook等的實習經驗。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

Han Zhang，本科畢業於中國農業大學，碩士就讀於北京郵電大學，後在羅格斯大學取得了電腦科學博士學位。

其研究方向為電腦視覺，深度學習和醫學影像分析等。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

不過值得一提的是，目前Muse還沒有正式發布。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

有網友調侃，雖然它應該很香，但以穀歌的“尿性”，Muse離正式發布可能還有很長時間——畢竟他們還有18年的AI都沒發呢。

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

話說回來，你覺得Muse的效果怎麼樣？

對於其正式發布之事，有木有一點期待？

傳送門：https://www.php.cn/link/854f1fb6f65734d9e49f708d6cd84ad6

參考鏈接：https://twitter.com/AlphaSignalAI/status/ 1610404589966180360

以上是效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

$牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24)$ 牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結：https://nianticlabs.github.io/mickey/給定兩張圖片，可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常，這些對應關係是二維到二維的，而我們估計的姿態在尺度上是不確定的。一些應用，例如隨時隨地實現即時增強現實，需要尺度度量的姿態估計，因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey，這是一個關鍵點匹配流程，能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配，我們能夠在沒有深度測試的情況下推斷度量相對

輕鬆拿捏 4K 高畫質影像理解！這個多模態大模型自動分析網頁海報內容，打工人簡直不要太方便 Apr 23, 2024 am 08:04 AM

一個可以自動分析PDF、網頁、海報、Excel圖表內容的大模型，對於打工人來說簡直不要太方便。上海AILab，香港中文大學等研究機構提出的InternLM-XComposer2-4KHD（簡寫為IXC2-4KHD）模型讓這一切成為了現實。相較於其他多模態大模型不超過1500x1500的分辨率限制，該工作將多模態大模型的最大輸入影像提升到超過4K（3840x1600）分辨率，並支援任意長寬比和336像素～4K動態解析度變化。發布三天，模型就登頂HuggingFace視覺問答模型熱度排行榜第一。輕鬆拿捏

See all articles

效率碾壓DALL·E 2和Imagen，Google新模型達成新SOTA，還能一句話搞定PS

比DALL·E 2和Imagen更有效率

從上到下依序為：預訓練的文字編碼器、基礎模型、超解析度模型

FID上獲SOTA分數

研究團隊

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題