ホームページ テクノロジー周辺機器 AI 清華大学の壁に面したインテリジェントなオープンソース中国マルチモーダル大型モデル VisCPM: 対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画機能を備えています

清華大学の壁に面したインテリジェントなオープンソース中国マルチモーダル大型モデル VisCPM: 対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画機能を備えています

Jul 03, 2023 pm 06:21 PM
ai モデル

2020年12月にリリースされたCPM-1は中国初の大型モデルで、2022年9月にリリースされたCPM-Antはパラメータの0.06%を微調整するだけでフルパラメータ微調整効果を超えることができます。 2023 年 5 月にリリースされた WebCPM は、中国初の検索ベースの質問と回答のオープンソース モデルです。 CPM-Bee数百億モデルは同チームがリリースした最新のベースモデルで、中国語能力は権威あるリストZeroCLUEで第1位、英語能力はLLaMAと同等。

大型モデルCPMシリーズは画期的な成果を重ね、国内大型モデルをトップに導き、このたびリリースされたVisCPMもまたその証しです。 VisCPM は、Wall-face Intelligence、清華大学 NLP 研究所、および OpenBMB の Zhihu が共同でオープンソース化したマルチモーダル大規模モデル シリーズです。VisCPM-Chat モデルは、中国語と英語のバイリンガル マルチモーダル対話機能と、VisCPM をサポートしています。 - ペイント モデルのサポート テキストから画像への生成機能に関しては、VisCPM が中国のマルチモーダル オープン ソース モデルの中で最高のレベルに達していることが評価されています。

VisCPM は、数百億のパラメータベースモデル CPM-Bee に基づいてトレーニングされ、ビジュアル エンコーダ (Q-Former とビジュアル デコーダ (Diffusion-UNet)) を統合しています。視覚信号の入出力をサポートします。CPM-Bee ベースの優れたバイリンガル機能のおかげで、VisCPM は英語のマルチモーダル データを通じてのみ事前トレーニングでき、優れた中国語のマルチモーダル機能を実現するように一般化できます。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳VisCPM の簡単なアーキテクチャ図

VisCPM-Chat と VisCPM-Paint がどこにあるのか詳しく見てみましょう。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳写真

VisCPMリンク: https://github.com/OpenBMB/VisCPM

VisCPM-Chat は、中国語と英語での画像指向のバイリンガル マルチモーダル ダイアログをサポートします。 このモデルは、Q-Former をビジュアル エンコーダとして使用し、CPM-Bee (10B) をビジュアル エンコーダとして使用します。言語対話ベース モデルとパス 言語モデリング トレーニングの目標には、ビジュアル モデルと言語モデルが統合されます。モデル トレーニングには、事前トレーニングと指示の微調整の 2 つの段階が含まれます。

チームは約を使用します。 100M の高品質英語画像とテキストのペア データ VisCPM-Chat は事前トレーニングされており、データには CC3M、CC12M、COCO、Visual Genome、Laion などが含まれています。事前トレーニングの段階では、言語モデルのパラメーターは固定されたままで、大規模なビジョンをサポートするために Q-Former の一部のパラメーターのみが更新されます。言語表現の効率的な調整。

チームはその後、次の手順を微調整しました。 VisCPM-Chat、LLaVA-150K 英語コマンド微調整データ を採用し、対応する翻訳を混合しました。モデルのマルチモーダル基本機能をユーザーの意図に合わせるために、最新の中国語データを使用してモデルを微調整しました。微調整段階では、すべてのモデル パラメーターを更新して、微調整データの利用効率を向上させました。

興味深いことに、チームは、英語の指導データのみが使用された場合でも、命令の微調整のために、モデルは中国語の質問を理解できましたが、英語でしか答えることができませんでした。これは、モデルが 多言語モーダル機能が十分に一般化されていることを示しています。さらに少量の中国語翻訳データを追加することで、指示の微調整段階では、モデルの応答言語をユーザーの質問言語と一致させることができます。

チーム モデルは、LLaVA 英語テスト セットと翻訳された中国語テスト セットで評価されました。この評価ベンチマークは、オープン ドメインの対話、画像の詳細説明、および複雑な推論におけるモデルのパフォーマンスを検査し、スコアリングに GPT-4 を使用します。 VisCPM-Chat が最高の平均パフォーマンスを達成したことがわかります。中国語のマルチモーダル能力に関しては、一般領域の対話と複雑な推論で優れたパフォーマンスを発揮し、英語のマルチモーダル能力も優れていました。

VisCPM-Chat には、VisCPM-Chat-balance と VisCPM-Chat-zhplus という 2 つのモデル バージョンが用意されています。 前者には英語と中国語の機能があり、よりバランスが取れており、後者は中国語の能力がさらに優れています。 2 つのモデルは、命令の微調整フェーズで同じデータを使用します。VisCPM-Chat-zhplus は、事前トレーニング フェーズで、さらに 2,000 万のクリーン化されたネイティブ中国語の画像とテキストのペア データと、1 億 2,000 万の翻訳された中国語の画像とテキストのペア データを追加します。 。 ###############写真######

次は、VisCPM-Chat のマルチモーダル対話機能のデモです。特定の地域の地図を識別できるだけでなく、落書きや映画のポスターを理解し、スターバックスのロゴさえも認識できます。さらに、私は中国語と英語のバイリンガルです!


清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

中国語と中国語のバイリンガルをサポートする VisCPM-Paint を見てみましょう。英語のテキストから画像への生成。 このモデルは、テキスト エンコーダーとして CPM-Bee (10B)、画像デコーダーとして UNet を使用し、拡散モデルを通じてターゲット融合言語とビジョン モデルをトレーニングします。

トレーニング プロセス中、言語モデルのパラメーターは常に固定されたままになります。 Stable Diffusion 2.1 の UNet パラメータを使用してビジュアル デコーダを初期化し、主要なブリッジング パラメータを段階的にフリーズ解除することで言語モデルと融合します。最初にテキスト表現マッピングの線形層をビジュアル モデルにトレーニングし、次にクロスアテンションをさらにフリーズ解除します。 UNet の層。モデルは、Laion 2B 英語の画像テキスト データでトレーニングされました。

VisCPM-Paint と同様に、基本モデル CPM-Bee のバイリンガル機能のおかげで、VisCPM-Paint は英語の画像とテキストのペアと一般化を通じてのみトレーニングできます。中国語のテキストから画像への生成機能は、中国語のオープン ソース モデルの最良の結果を実現します。 20M のクリーン化されたネイティブ中国語の画像とテキストのペア データと、中国語に翻訳された 120M の画像とテキストのペア データをさらに追加することにより、このモデルの中国語テキストから画像への生成機能がさらに向上しました。同様に、VisCPM-Paint には、balance と zhplus という 2 つの異なるバージョンがあります。標準画像生成テストセット MSCOCO で 30,000 枚の画像をサンプリングし、一般的に使用される評価画像生成指標 FID (Fréchet Inception Distance) を計算して、生成された画像の品質を評価しました。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM-Paintモデルにそれぞれ「明るい月が海に昇る、世界は今この瞬間、耽美的スタイル、抽象的スタイル」を入力」と「キンモクセイの花は、人々が怠けているときに散る。「浄月春の山空」の 2 つのプロンプトにより、次の 2 つの写真が生成されました。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

(生成効果の安定性には改善の余地あり)

なかなか素晴らしいもので、古詩の芸術的概念を正確に捉えていると言えます。将来的には、詩を理解するために直接画像を生成することができます。設計に応用すれば大幅な省力化が可能です。 VisCPM-Chat では「絵を描く」だけでなく「詩を朗読」することもできます : 写真から詩を逆引き検索できます。たとえば、李白の詩を使って黄河の情景を説明し、解釈することもできますし、蘇軾の「水条歌頭」を使って中秋の月夜に臨むときの感情を表現することもできます。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM は生成結果が優れているだけでなく、ダウンロード バージョンの設計も考慮されており、非常に簡単ですインストールして使用します。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳VisCPM は中国語と英語の機能を備えたさまざまなバージョンを提供します

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM は中国語と英語の機能を備えたさまざまなバージョンを提供しますさまざまなバージョン 中国語と英語の機能を備えたモデル バージョンは、誰でもダウンロードして選択できます インストール手順は簡単です 使用中は、数行のコードでマルチモーダル ダイアログを実現できます 入力テキストと出力画像のセキュリティ チェックコードではデフォルトで有効になっています。 (具体的なチュートリアルについては README を参照してください) 将来的には、チームは VisCPM を ハグフェイス コード フレームワークにも統合し、引き続きセキュリティ モデルの改善、Web ページの迅速な展開のサポート、モデルの定量化機能のサポート、モデルの詳細なサポートを行う予定です。チューニングとその他の機能、更新を待ってください!

VisCPM シリーズ モデルは、個人使用や研究目的での使用を歓迎します 。モデルを商用目的で使用したい場合は、cpm@modelbest.cn に連絡して商用ライセンスの問題について話し合うこともできます。

従来のモデルは、単一モーダル データの処理に重点を置いています。現実世界の情報は多くの場合、マルチモーダルです。マルチモーダルな大規模モデルは、人工知能システムの知覚インタラクション機能を向上させ、AI を提供します現実世界での複雑な認識と理解のタスクを解決すると、新たな機会がもたらされます。清華を拠点とする大規模モデル企業は強力な壁に面したインテリジェンスの研究開発能力を持っていると言わざるを得ません。共同でリリースされたマルチモーダル大型モデル VisCPM は強力で驚くべきパフォーマンスを発揮します。今後の結果のリリースが楽しみです!

以上が清華大学の壁に面したインテリジェントなオープンソース中国マルチモーダル大型モデル VisCPM: 対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画機能を備えていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Apr 21, 2025 am 10:45 AM

Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98%をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏​​しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか? WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

通貨サークルでのレバレッジされた交換のランキングは 通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換:1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です 「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です Apr 21, 2025 pm 02:48 PM

暗号通貨市場での突入は投資家の間でパニックを引き起こし、Dogecoin(Doge)は最も困難なヒット分野の1つになりました。その価格は急激に下落し、分散財務財務(DEFI)(TVL)の総価値が激しく減少しました。 「ブラックマンデー」の販売波が暗号通貨市場を席巻し、ドゲコインが最初にヒットしました。そのdefitVLは2023レベルに低下し、通貨価格は過去1か月で23.78%下落しました。 DogecoinのDefitVLは、主にSOSO値指数が26.37%減少したため、272万ドルの安値に低下しました。退屈なDAOやThorchainなどの他の主要なDefiプラットフォームも、それぞれ24.04%と20減少しました。

なぜ仮想通貨価格の上昇または下落があるのですか?なぜ仮想通貨価格の上昇または下落があるのですか? なぜ仮想通貨価格の上昇または下落があるのですか?なぜ仮想通貨価格の上昇または下落があるのですか? Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao(Kernel)Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか? BNBホルダーはそれからどのような利点を得ることができますか?心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain(ACI)の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative(ACI)の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

See all articles