效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS
新年伊始,GoogleAI又開始發力文字-圖像生成模型了。
這次,他們的新模型Muse(繆斯)在CC3M資料集上達成了新SOTA(目前最佳水準)。
且其效率遠超熱門全球的DALL·E 2和Imagen (這兩個都屬於擴散模型),以及Parti (屬於自回歸模型)。
——單張512x512解析度影像的生成時間被壓縮到僅1.3秒。
在影像編輯方面,只需一句文字指令,就可以對原始影像進行編輯。
(似乎不用再為學ps頭禿了~)
#如果想要效果更精準,還能選定遮罩位置,編輯特定區域。例如,把背景的建築換成熱氣球。
Muse一經官宣,很快就吸引了大波關注,目前原貼已收穫4000 點讚。
看到Google的又一力作,有人甚至已經開始預言:
現在AI開發者的競爭非常激烈,看來2023將會是非常精彩的一年。
比DALL·E 2和Imagen更有效率
說回Google剛剛公開的Muse。
首先,就生成圖片的品質來說,Muse的作品大都畫質清晰、效果自然。
來看看更多例子感受一下~
例如戴著毛線帽的樹懶寶寶正在操作電腦;再例如酒杯中的一隻羊:
平時八竿子打不著的各種主體,在一張圖裡和諧共存,沒啥違和感。
要是你覺得這些還只能算AIGC的基操,那不妨再看看Muse的編輯功能。
例如一鍵換裝(還能換性別):
這既不需要加什麼遮罩,還能一句話搞定。
而如果用上遮罩的話,就能實現更6的操作,包括一鍵切換背景,從原地切換到紐約、巴黎、再到舊金山。
還能從海邊到倫敦、到花海,甚至飛到太空中的土星環上,玩一把刺激的滑板海豚跳。
(好傢伙,不僅能輕鬆雲旅遊,還能一鍵上天......)
效果著實挺出色。那Muse背後都有哪些技術支援?為什麼效率比DALL·E 2和Imagen更高?
一個重要的原因是,DALL·E 2和Imagen在訓練過程中,需要將所有學到的知識都儲存在模型參數中。
於是,它們不得不需要越來越大的模型、越來越多的訓練資料來獲取更多知識——將Better和Bigger綁在了一起。
代價就是參數量龐大,效率也受到了影響。
而根據GoogleAI團隊介紹,他們採用的主要方法名曰:掩碼影像建模 (Masked image modeling)。
這是一種新興的自我監督預訓練方法,其基本想法簡單來說就是:
輸入影像的一部分被隨機屏蔽掉,然後透過預訓練文字任務進行重建。
Muse模型在離散標記的空間遮罩上訓練,並結合從預訓練語言大模型中提取的文本,預測隨機遮蔽的圖像標記。
從上到下依序為:預訓練的文字編碼器、基礎模型、超解析度模型
Google團隊發現,使用預先訓練好的大語言模型,可以讓AI對語言的理解更加細緻透徹。
就輸出而言,由於AI對物體的空間關係、姿態等要素把握得很不錯,所以生成的圖像可以做到高保真。
與DALL·E 2、Imagen等像素空間的擴散模型相比,Muse用的是離散的token,且取樣迭代較少。
另外,和Parti等自迴歸模型相比,Muse使用了平行解碼,效率也更高。
FID上獲SOTA分數
前文提到,Muse不僅在效率上取得了提升,在生成影像品質上也非常優秀。
研究者把它與DALL·E、LAFITE、LDM、GLIDE、DALL·E 2,以及谷歌自家的Imagen和Parti進行PK,測試了它們的FID和CLIP分數。
(FID分數用於評估生成影像的質量,分數越低質量越高;CLIP分數則代表文字與影像的契合程度,分數越高越好。)
結果顯示,Muse-3B模型在COCO驗證集中的zero-shot FID-30K得分為7.88,僅次於參數較大的Imagen-3.4B和Parti-20B模型。
更優秀的是,Muse-900M模型在CC3M資料集上實現了新的SOTA,FID分數為6.06,這也意味著它與文字的匹配度是最高的。
同時,此模型的CLIP分數為0.26,也達到了同期最高水準。
除此之外,為了進一步證實Muse的出圖效率,研究者也比較了Muse與其他模型的單張影像產生時間:
#在256x256、512x512的解析度上Muse均達到了最快速度:0.5s和1.3s。
研究團隊
Muse的研究團隊來自Google,兩位共同一作分別是Huiwen Chang和Han Zhang。
Huiwen Chang,現為Google資深研究員。
她本科就讀於清華大學,博士畢業於普林斯頓大學,有在Adobe、Facebook等的實習經驗。
Han Zhang,本科畢業於中國農業大學,碩士就讀於北京郵電大學,後在羅格斯大學取得了電腦科學博士學位。
其研究方向為電腦視覺,深度學習和醫學影像分析等。
不過值得一提的是,目前Muse還沒有正式發布。
有網友調侃,雖然它應該很香,但以穀歌的“尿性”,Muse離正式發布可能還有很長時間——畢竟他們還有18年的AI都沒發呢。
話說回來,你覺得Muse的效果怎麼樣?
對於其正式發布之事,有木有一點期待?
傳送門:https://www.php.cn/link/854f1fb6f65734d9e49f708d6cd84ad6
參考鏈接:https://twitter.com/AlphaSignalAI/status/ 1610404589966180360
以上是效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

一個可以自動分析PDF、網頁、海報、Excel圖表內容的大模型,對於打工人來說簡直不要太方便。上海AILab,香港中文大學等研究機構提出的InternLM-XComposer2-4KHD(簡寫為IXC2-4KHD)模型讓這一切成為了現實。相較於其他多模態大模型不超過1500x1500的分辨率限制,該工作將多模態大模型的最大輸入影像提升到超過4K(3840x1600)分辨率,並支援任意長寬比和336像素~4K動態解析度變化。發布三天,模型就登頂HuggingFace視覺問答模型熱度排行榜第一。輕鬆拿捏
