清華系面壁智慧開源中文多模態大模型VisCPM ：支援對話文圖雙向生成，吟詩作畫能力驚艷-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

清華系面壁智慧開源中文多模態大模型VisCPM ：支援對話文圖雙向生成，吟詩作畫能力驚艷

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 03, 2023 pm 06:21 PM

ai 模型

2020 年12 月發布的CPM-1 是國內首個中文大模型；2022 年9 月發布的CPM-Ant 僅微調0.06% 參數就能超越全參數微調效果；2023 年5 月發布的WebCPM 是中文首個基於搜尋的問答開源模型。 CPM-Bee 百億大模型是團隊最新發表的基座模型，中文能力登頂權威榜單 ZeroCLUE，英文能力平手 LLaMA。

屢屢作出破壁性成就，CPM 系列大模型一直在引領國產大模型攀登高峰，最近發布的 VisCPM 是又一次證明！ VisCPM 是由面壁智慧、清華大學NLP 實驗室和知乎聯合開源在OpenBMB 的多模態大模型系列，其中VisCPM-Chat 模型支援中英雙語的多模態對話能力，VisCPM-Paint 模型支持文到圖生成能力，評測顯示VisCPM 在中文多模態開源模型中達到最佳水準。

VisCPM 基於百億參數基座模型CPM-Bee 訓練，融合視覺編碼器（Q-Former 和視覺解碼器（Diffusion-UNet）以支援視覺訊號的輸入與輸出。得益於CPM-Bee 底座優秀的雙語能力，VisCPM 可以僅透過英文多模態資料預訓練，泛化實現優秀的中文多模態能力。

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳 VisCPM簡易架構圖

我們來詳細看看VisCPM-Chat 和VisCPM-Paint 到底牛在哪裡。

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳

##圖片

VisCPM 連結：https://github.com/OpenBMB/VisCPM

VisCPM-Chat 支援以影像為導向多模態對話。此模型使用Q-Former 作為視覺編碼器，使用CPM-Bee（10B）作為語言互動基底模型，並透過語言建模訓練目標融合視覺和語言模型。模型訓練包括預訓練和指令精調兩階段。

#團隊使用約 100M 高品質英文圖文對資料對VisCPM-Chat 進行了預訓練，資料包括CC3M、CC12M、COCO、Visual Genome、Laion 等。在預訓練階段，語言模型參數保持固定，僅更新Q-Former 部分參數，以支援大規模視覺-語言表示的高效對齊。

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳之後團隊對VisCPM-Chat 進行了指令精調，採用LLaVA-150K 英文指令精調資料

，並混合相應翻譯後的中文資料對模型進行指令精調，以對齊模型多模態基礎能力和使用者使用意圖。在指令精調階段，他們更新了全部模型參數，以提升指令精調資料的利用效率。### #########有趣的是，團隊發現即使僅採用英文指令資料進行指令精調，模型也可以理解中文問題，但僅能用英文回答。這顯示模型的###多語言多模態能力已經得到良好的泛化###。在指令精調階段進一步加入少量中文翻譯數據，就可以將模型回复語言和用戶問題語言對齊。############團隊在LLaVA 英文測試集和翻譯的中文測試集對模型進行了評測，該評測基準考察模型在開放域對話、圖像細節描述、複雜推理方面的表現，並使用GPT-4 進行打分。可以觀察到，# ##VisCPM-Chat 在中文多模態能力方面取得了最佳的平均性能###，在通用域對話和複雜推理上表現出色，同時也表現出了不錯的英文多模態能力。 ############VisCPM-Chat 提供了兩個模型版本，分別為VisCPM-Chat-balance 和VisCPM-Chat-zhplus，###前者在英文和中文兩種語言上的能力較為平衡，後者在中文能力上更加突出。 ###兩個模型在指令精調階段使用的資料相同，VisCPM-Chat-zhplus 在預訓練階段額外加入了 20M 清洗後的原生中文圖文對資料和 120M 翻譯到中文的圖文對資料。 ###############圖片######

以下是 VisCPM-Chat 的多模態對話能力展示，不僅能辨識特定地區的地圖，還能讀懂塗鴉畫和電影海報，甚至認識星巴克的 logo。而且，中英文雙語都很溜溜！

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳

#再來看 VisCPM-Paint ，它支援中英雙語的文到圖生成。 該模型使用 CPM-Bee（10B）作為文字編碼器，使用 UNet 作為圖像解碼器，並透過擴散模型訓練目標融合語言和視覺模型。

在訓練過程中，語言模型參數始終保持固定。使用 Stable Diffusion 2.1 的 UNet 參數初始化視覺解碼器，並透過逐步解凍其中關鍵的橋接參數將其與語言模型融合：首先訓練文字表示映射到視覺模型的線性層，然後進一步解凍 UNet 的交叉注意力層。該模型在 Laion 2B 英文圖文對資料上進行了訓練。

與VisCPM-Paint 類似，得益於基座模型CPM-Bee 的雙語能力，VisCPM-Paint 可以僅透過英文圖文對訓練，泛化實現良好的中文文到圖生成能力，達到中文開源模式的最佳效果。 透過進一步加入 20M 清洗後的原生中文圖文對數據，以及 120M 翻譯到中文的圖文對數據，模型的中文文到圖生成能力獲得進一步提升。同樣，VisCPM-Paint 有 balance 和 zhplus 兩個不同的版本。他們在標準影像生成測試集 MSCOCO 上採樣了 3 萬張圖片，計算了常用評估影像生成指標 FID (Fréchet Inception Distance) 評估生成圖片的品質。

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳

VisCPM-Paint 模型中分別輸入「海上生明月，天涯共此時，唯美風格，抽象風格」「人閒桂花落，月靜春山空」兩個prompts，產生了以下兩張圖片：

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳

#（生成效果穩定性仍有提升空間）

相當驚艷，可以說精準掌握了古詩詞的意境，以後讀不懂詩句就直接生成個圖片來理解！如果應用在設計上，可以節省一大筆人力。 不僅能 “作畫”，用上 VisCPM-Chat，還能 “吟詩”：用圖片反向檢索詩句。例如能用李白的詩描繪黃河的景象並作解讀，在面對中秋月夜時還能用蘇遼的《水調歌頭》借景抒情。

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳

VisCPM 不僅產生效果好，下載版本設計考慮周到，安裝和使用也十分簡易。

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳 VisCPM提供不同中英文能力的版本

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳

VisCPM 提供不同中英文能力的模型版本供大家下載選擇，安裝步驟簡單，在使用中可以透過幾行程式碼實現多模態對話，還在程式碼中預設開啟了對輸入文字和輸出圖片的安全檢查。（具體教學詳見README）未來團隊也會將VisCPM 整合到huggingface 程式碼框架中，並且會陸續完善安全模型、支援快速網頁部署、支援模型量化功能、支援模型微調等功能，坐等更新！

值得一提的是，VisCPM 系列模型非常歡迎個人使用和研究用途。如需將模型用於商業用途，也可以聯絡 cpm@modelbest.cn 洽談商業授權事宜。

傳統模型專注處理單一模態數據，現實世界中的信息往往是多模態的，多模態大模型提升了人工智慧系統的感知交互能力，為AI解決現實世界中複雜的感知和理解任務帶來了新的機會。不得不說，清華系大模型公司面壁智慧研發能力強大，聯合發布的多模態大模型 VisCPM 實力強大、表現驚艷，期待他們後續的成果發布！

以上是清華系面壁智慧開源中文多模態大模型VisCPM ：支援對話文圖雙向生成，吟詩作畫能力驚艷的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7711

Java教學

1640

CakePHP 教程

1394

Laravel 教程

1288

PHP教程

1232

Related knowledge

WorldCoin（WLD）價格預測2025-2031：到2031年WLD會達到4美元嗎？ Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制，在加密货币市场中脱颖而出，吸引了众多投资者的目光。WLD凭借其创新技术，特别是结合OpenAI人工智能技术，在众多山寨币中表现突出。但未来几年，数字资产的走势如何呢？让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示，WLD平均价格可能达到1.31美元，最高可能触及1.36美元。然而，在熊市情况下，价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨鏈交易什麼意思？跨鏈交易所有哪些？ Apr 21, 2025 pm 11:39 PM

支持跨鏈交易的交易所有：1. Binance，2. Uniswap，3. SushiSwap，4. Curve Finance，5. Thorchain，6. 1inch Exchange，7. DLN Trade，這些平台通過各種技術支持多鏈資產交易。

如何在幣安拿下 KERNEL 空投獎勵全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密貨幣的繁華世界裡，新機遇總是不斷湧現。當下，KernelDAO (KERNEL) 空投活動正備受矚目，吸引著眾多投資者的目光。那麼，這個項目究竟是什麼來頭？ BNB Holder 又能從中獲得怎樣的好處？別急，下面將為你一一揭曉。

對於加密貨幣行業來說，'黑色星期一拋售”是艱難的一天 Apr 21, 2025 pm 02:48 PM

加密货币市场暴跌引发投资者恐慌，Dogecoin(Doge)成为重灾区之一。其价格大幅下挫，去中心化金融(DeFi)总价值锁定(TVL)也出现显著下降。“黑色星期一”的抛售潮席卷加密货币市场，Dogecoin首当其冲。其DeFiTVL跌至2023年水平，币价在过去一个月内下跌23.78%。Dogecoin的DeFiTVL降至272万美元的低点，主要原因是SOSO价值指数下跌26.37%。其他主要DeFi平台，如无聊的Dao和Thorchain，TVL也分别下降了24.04%和20.

Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議，已達到法定人數 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議，已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃（ACI）創始人馬克·澤勒（MarcZeller）在X上宣布了這一點，並指出它標誌著該協議的新時代。 AAVE連鎖倡議（ACI）創始人MarcZeller在X上宣布，Aavenomics提案包括修改AAVE協議令牌和引入令牌回購，已為AAVEDAO實現了法定人數。根據Zeller的說法，這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議，即在周三以每週100

幣圈槓桿交易所排名幣圈十大槓桿交易所APP最新推薦 Apr 21, 2025 pm 11:24 PM

2025年在槓桿交易、安全性和用戶體驗方面表現突出的平台有：1. OKX，適合高頻交易者，提供最高100倍槓桿；2. Binance，適用於全球多幣種交易者，提供125倍高槓桿；3. Gate.io，適合衍生品專業玩家，提供100倍槓桿；4. Bitget，適用於新手及社交化交易者，提供最高100倍槓桿；5. Kraken，適合穩健型投資者，提供5倍槓桿；6. Bybit，適用於山寨幣探索者，提供20倍槓桿；7. KuCoin，適合低成本交易者，提供10倍槓桿；8. Bitfinex，適合資深玩