首頁 科技週邊 人工智慧 清華系面壁智慧開源中文多模態大模型VisCPM :支援對話文圖雙向生成,吟詩作畫能力驚艷

清華系面壁智慧開源中文多模態大模型VisCPM :支援對話文圖雙向生成,吟詩作畫能力驚艷

Jul 03, 2023 pm 06:21 PM
ai 模型

2020 年12 月發布的CPM-1 是國內首個中文大模型;2022 年9 月發布的CPM-Ant 僅微調0.06% 參數就能超越全參數微調效果;2023 年5 月發布的WebCPM 是中文首個基於搜尋的問答開源模型。 CPM-Bee 百億大模型是團隊最新發表的基座模型,中文能力登頂權威榜單 ZeroCLUE,英文能力平手 LLaMA。

屢屢作出破壁性成就,CPM 系列大模型一直在引領國產大模型攀登高峰,最近發布的 VisCPM 是又一次證明! VisCPM 是由面壁智慧、清華大學NLP 實驗室和知乎聯合開源在OpenBMB 的多模態大模型系列,其中VisCPM-Chat 模型支援中英雙語的多模態對話能力,VisCPM-Paint 模型支持文到圖生成能力,評測顯示VisCPM 在中文多模態開源模型中達到最佳水準。

VisCPM 基於百億參數基座模型CPM-Bee 訓練,融合視覺編碼器(Q-Former 和視覺解碼器(Diffusion-UNet)以支援視覺訊號的輸入與輸出。得益於CPM-Bee 底座優秀的雙語能力,VisCPM 可以僅透過英文多模態資料預訓練,泛化實現優秀的中文多模態能力。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳VisCPM簡易架構圖

我們來詳細看看VisCPM-Chat 和VisCPM-Paint 到底牛在哪裡。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

##圖片

VisCPM 連結:https://github.com/OpenBMB/VisCPM

VisCPM-Chat 支援以影像為導向多模態對話。此模型使用Q-Former 作為視覺編碼器,使用CPM-Bee(10B)作為語言互動基底模型,並透過語言建模訓練目標融合視覺和語言模型。模型訓練包括預訓練和指令精調兩階段。

#團隊使用約 100M 高品質英文圖文對資料 對VisCPM-Chat 進行了預訓練,資料包括CC3M、CC12M、COCO、Visual Genome、Laion 等。在預訓練階段,語言模型參數保持固定,僅更新Q-Former 部分參數,以支援大規模視覺-語言表示的高效對齊。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳之後團隊對VisCPM-Chat 進行了指令精調,採用LLaVA-150K 英文指令精調資料

,並混合相應翻譯後的中文資料對模型進行指令精調,以對齊模型多模態基礎能力和使用者使用意圖。在指令精調階段,他們更新了全部模型參數,以提升指令精調資料的利用效率。### #########有趣的是,團隊發現即使僅採用英文指令資料進行指令精調,模型也可以理解中文問題,但僅能用英文回答。這顯示模型的###多語言多模態能力已經得到良好的泛化###。在指令精調階段進一步加入少量中文翻譯數據,就可以將模型回复語言和用戶問題語言對齊。############團隊在LLaVA 英文測試集和翻譯的中文測試集對模型進行了評測,該評測基準考察模型在開放域對話、圖像細節描述、複雜推理方面的表現,並使用GPT-4 進行打分。可以觀察到,# ##VisCPM-Chat 在中文多模態能力方面取得了最佳的平均性能###,在通用域對話和複雜推理上表現出色,同時也表現出了不錯的英文多模態能力。 ############VisCPM-Chat 提供了兩個模型版本,分別為VisCPM-Chat-balance 和VisCPM-Chat-zhplus,###前者在英文和中文兩種語言上的能力較為平衡,後者在中文能力上更加突出。 ###兩個模型在指令精調階段使用的資料相同,VisCPM-Chat-zhplus 在預訓練階段額外加入了 20M 清洗後的原生中文圖文對資料和 120M 翻譯到中文的圖文對資料。 ###############圖片######

以下是 VisCPM-Chat 的多模態對話能力展示,不僅能辨識特定地區的地圖,還能讀懂塗鴉畫和電影海報,甚至認識星巴克的 logo。而且,中英文雙語都很溜溜!


清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

#再來看 VisCPM-Paint ,它支援中英雙語的文到圖生成。 該模型使用 CPM-Bee(10B)作為文字編碼器,使用 UNet 作為圖像解碼器,並透過擴散模型訓練目標融合語言和視覺模型。

在訓練過程中,語言模型參數始終保持固定。使用 Stable Diffusion 2.1 的 UNet 參數初始化視覺解碼器,並透過逐步解凍其中關鍵的橋接參數將其與語言模型融合:首先訓練文字表示映射到視覺模型的線性層,然後進一步解凍 UNet 的交叉注意力層。該模型在 Laion 2B 英文圖文對資料上進行了訓練。

與VisCPM-Paint 類似,得益於基座模型CPM-Bee 的雙語能力,VisCPM-Paint 可以僅透過英文圖文對訓練,泛化實現良好的中文文到圖生成能力,達到中文開源模式的最佳效果。 透過進一步加入 20M 清洗後的原生中文圖文對數據,以及 120M 翻譯到中文的圖文對數據,模型的中文文到圖生成能力獲得進一步提升。同樣,VisCPM-Paint 有 balance 和 zhplus 兩個不同的版本。他們在標準影像生成測試集 MSCOCO 上採樣了 3 萬張圖片,計算了常用評估影像生成指標 FID (Fréchet Inception Distance) 評估生成圖片的品質。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM-Paint 模型中分別輸入「海上生明月,天涯共此時,唯美風格,抽象風格」「人閒桂花落,月靜春山空」 兩個prompts,產生了以下兩張圖片:

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

#(生成效果穩定性仍有提升空間)

相當驚艷,可以說精準掌握了古詩詞的意境,以後讀不懂詩句就直接生成個圖片來理解!如果應用在設計上,可以節省一大筆人力。 不僅能 “作畫”,用上 VisCPM-Chat,還能 “吟詩”:用圖片反向檢索詩句。例如能用李白的詩描繪黃河的景象並作解讀,在面對中秋月夜時還能用蘇遼的《水調歌頭》借景抒情。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM 不僅產生效果好,下載版本設計考慮周到,安裝和使用也十分簡易。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳VisCPM提供不同中英文能力的版本

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM 提供不同中英文能力的模型版本供大家下載選擇,安裝步驟簡單,在使用中可以透過幾行程式碼實現多模態對話,還在程式碼中預設開啟了對輸入文字和輸出圖片的安全檢查。 (具體教學詳見README)未來團隊也會將VisCPM 整合到huggingface 程式碼框架中,並且會陸續完善安全模型、支援快速網頁部署、支援模型量化功能、支援模型微調等功能,坐等更新!

值得一提的是,VisCPM 系列模型非常歡迎個人使用和研究用途。如需將模型用於商業用途,也可以聯絡 cpm@modelbest.cn 洽談商業授權事宜。

傳統模型專注處理單一模態數據,現實世界中的信息往往是多模態的,多模態大模型提升了人工智慧系統的感知交互能力,為AI解決現實世界中複雜的感知和理解任務帶來了新的機會。不得不說,清華系大模型公司面壁智慧研發能力強大,聯合發布的多模態大模型 VisCPM 實力強大、表現驚艷,期待他們後續的成果發布!

以上是清華系面壁智慧開源中文多模態大模型VisCPM :支援對話文圖雙向生成,吟詩作畫能力驚艷的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨鏈交易什麼意思?跨鏈交易所有哪些? 跨鏈交易什麼意思?跨鏈交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

如何在幣安拿下 KERNEL 空投獎勵 全流程攻略 如何在幣安拿下 KERNEL 空投獎勵 全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

對於加密貨幣行業來說,'黑色星期一拋售”是艱難的一天 對於加密貨幣行業來說,'黑色星期一拋售”是艱難的一天 Apr 21, 2025 pm 02:48 PM

加密货币市场暴跌引发投资者恐慌,Dogecoin(Doge)成为重灾区之一。其价格大幅下挫,去中心化金融(DeFi)总价值锁定(TVL)也出现显著下降。“黑色星期一”的抛售潮席卷加密货币市场,Dogecoin首当其冲。其DeFiTVL跌至2023年水平,币价在过去一个月内下跌23.78%。Dogecoin的DeFiTVL降至272万美元的低点,主要原因是SOSO价值指数下跌26.37%。其他主要DeFi平台,如无聊的Dao和Thorchain,TVL也分别下降了24.04%和20.

Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

幣圈槓桿交易所排名 幣圈十大槓桿交易所APP最新推薦 幣圈槓桿交易所排名 幣圈十大槓桿交易所APP最新推薦 Apr 21, 2025 pm 11:24 PM

2025年在槓桿交易、安全性和用戶體驗方面表現突出的平台有:1. OKX,適合高頻交易者,提供最高100倍槓桿;2. Binance,適用於全球多幣種交易者,提供125倍高槓桿;3. Gate.io,適合衍生品專業玩家,提供100倍槓桿;4. Bitget,適用於新手及社交化交易者,提供最高100倍槓桿;5. Kraken,適合穩健型投資者,提供5倍槓桿;6. Bybit,適用於山寨幣探索者,提供20倍槓桿;7. KuCoin,適合低成本交易者,提供10倍槓桿;8. Bitfinex,適合資深玩

混合型區塊鏈交易平台有哪些 混合型區塊鏈交易平台有哪些 Apr 21, 2025 pm 11:36 PM

選擇加密貨幣交易所的建議:1. 流動性需求,優先選擇幣安、Gate.io或OKX,因其訂單深度與抗波動能力強。 2. 合規與安全,Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能,KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。

虛擬幣價格上漲或者下降是為什麼 虛擬幣價格上漲或者下降的原因 虛擬幣價格上漲或者下降是為什麼 虛擬幣價格上漲或者下降的原因 Apr 21, 2025 am 08:57 AM

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

See all articles