用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

王林
發布: 2024-01-24 18:33:18
轉載
549 人瀏覽過

Pika北大斯坦福聯手,開源最新文字-圖像生成/編輯框架!

無需額外訓練,即可讓擴散模型擁有更強提示詞理解能力。

面對超長、超複雜提示詞,準確度更高、細節把控更強,而且產生圖片更自然。

效果超越最強影像生成模型Dall·E 3和SDXL。

例如要求圖片左右冰火兩重天,左邊有冰山、右邊有火山。

SDXL完全沒有符合提示詞要求,Dall·E 3沒有生成出來火山這一細節。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

也能透過提示字對產生影像二次編輯。

這就是文字-圖像生成/編輯框架RPG(Recaption,Plan and Generate),已經在網路上引起熱議。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

它是由北大、史丹佛、Pika共同開發。作者包括北大電腦學院崔斌教授、Pika共同創辦人兼CTO Chenlin Meng等。

目前框架程式碼已開源,相容於各種多模態大模型(如MiniGPT-4)和擴散模型主幹網路(如ControlNet)。

利用多模態大模型做增強

一直以來,擴散模型在理解複雜提示詞方面都相對較弱。

有些已有改進方法,要麼最終實現效果不夠好,要麼需要進行額外訓練。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

因此研究團隊利用多模態大模型的理解能力來增強擴散模型的組合能力、可控制能力。

從框架名字可以看出,它是讓模型「重新描述、規劃和生成」。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

此方法的核心策略有三個面向:

#1、多模態重新描述(Multimodal Recaptioning):利用大模型將複雜文字提示拆解為多個子提示,並對每個子提示進行更詳細的重新描述,以提升擴散模型對提示詞的理解能力。

2、思考鏈規劃(Chain-of-Thought Planning):利用多模態大模型的思維鏈推理能力,將圖像空間劃分為互補的子區域,並為每個子區域都會搭配不同的子提示,將複雜的生成任務拆解為多個更簡單的生成任務。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

3、互補區域擴散(Complementary Regional Diffusion):將空間分割好後,非重疊的區域各自根據子提示產生影像,然後進行拼接。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

最後就能產生一張更符合提示字要求的圖片。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

RPG框架還可以利用姿態、深度等資訊進行影像生成。

和ControlNet對比,RPG能進一步拆分輸入提示字。

用戶輸入:在一間明亮的房間裡,站著一位身穿香檳色長袖正裝、正閉著雙眼的漂亮黑髮女孩。房間左邊放著一隻插著粉紅色玫瑰花的精緻藍花瓶,右邊則是一些生氣勃勃的白玫瑰。

基礎提示:一個漂亮女孩站在她的明亮的房間裡。

區域0:一個裝著粉玫瑰的精緻藍花瓶

區域1:一個身穿香檳色長袖正裝的漂亮黑髮女孩閉著雙眼。

區域2:一些生氣勃勃的白玫瑰。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

也能實現影像生成、編輯閉環。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

實驗比較來看,RPG在色彩、形狀、空間、文字準確等維度都超越其他影像生成模型。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

研究團隊

該研究有兩位共同一作Ling Yang、Zhaochen Yu,都來自北大。

參與作者還有AI創企Pika共同創辦人兼CTO Chenlin Meng

她是史丹佛電腦博士,在電腦視覺、3D視覺方面有著豐富學術經歷,參與的去噪擴散隱式模型(DDIM)論文,如今單篇引用已有1700 。並有多篇生成式AI相關研究發表在ICLR、NeurIPS、CVPR、ICML等頂會上,且多篇入選Oral。

去年,Pika以AI影片生成產品Pika 1.0一炮而紅,2位史丹佛華人女博士創辦的背景,使其更加引人注目。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

△左為郭文景(Pika CEO),右為Chenlin Meng

參與研究的還有北大電腦學院副院長崔斌教授,他也是資料科學與工程研究所長。

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型

另外,史丹佛AI實驗室博士Minkai Xu、史丹佛助理教授Stefano Ermon共同參與這項研究。

論文網址:https://arxiv.org/abs/2401.11708

程式碼位址:https://github.com/YangLing0818/RPG- DiffusionMaster

以上是用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解複雜提示詞的擴散模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板