1 月 22 日、Yi シリーズ モデル ファミリに新しいメンバーが加わりました。Yi ビジョン言語 (Yi-VL) マルチモーダル言語の大規模モデルが正式に世界にオープンソースになりました。 Yi-VL モデルは Yi 言語モデルに基づいて開発されており、2 つのバージョン : Yi-VL-34B と Yi-VL-6B が含まれていることが報告されています。 #Yi-VL モデルのオープンソース アドレス:
- https://huggingface.co/01-ai
- https://www.modelscope.cn/organization/01ai
#画像とテキストの優れた理解と対話生成Yi-VL モデルは、英語のデータセット MMMU と中国語のデータセット CMMMU で優れた結果を達成しており、複雑な学際的なタスクにおいてその強力な強みを実証しています。
MMMU (正式名称 Massive Multi-discipline Multi-modal Understanding & Reasoning) データ セットには、分野 (アート & デザイン、ビジネス、科学、健康と医学、人文科学と社会科学、技術と工学など) には、非常に異質な画像タイプと絡み合ったテキストと画像情報が含まれており、モデルの高度な認識能力と推論能力に非常に高い要求が課せられます。このテスト セットでは、Yi-VL-34B は一連のマルチモーダル大型モデルを 41.6% の精度で上回り、GPT-4V (55.7%) に次ぐ
という強力な相互理解能力を示しました。そして主題の知識を応用します。
# ソース: https://mmmu-benchmark.github.io
中国向けに作成された CMMMU データセットでは、Yi-VL モデルは「中国人をよりよく理解する」という独自の利点を示しています。 CMMMU には、大学の試験、クイズ、教科書から派生した約 12,000 の中国語の複合問題が含まれています。その中で、
GPT-4V はこのテスト セットで 43.7% の精度を示し、Yi-VL-34B が 36.5% の精度で僅差で続き、既存のオープンソース マルチモーダル モデルの中でランクされています。位置。
出典: https://cmmmu-benchmark.github.io/
#それでは、Yi-VL モデルはグラフィックやテキストの対話などのさまざまなシナリオでどのように機能するのでしょうか? ご覧のとおり, Yi 言語モデルの強力なテキスト理解機能に基づいて、画像を並べるだけで優れたマルチモーダルなビジュアル言語モデルを取得できます。これは、Yi-VL モデルの中核となるハイライトの 1 つでもあります。
Yi-VL モデル アーキテクチャの設計とトレーニング方法のプロセスの概要。 アーキテクチャ設計の観点から見ると、Yi-VLモデルはオープンソースのLLaVAアーキテクチャ#に基づいています。 ## および 3 つのメイン モジュールが含まれています: Vision Transformer (略して ViT) は、オープン ソースの OpenClip ViT-H を使用した画像エンコードに使用されます。 /14 モデルを使用してトレーニング可能なパラメーターを初期化します。大規模な「画像とテキスト」のペアから特徴を抽出する方法を学習することで、モデルは画像を処理して理解する能力を備えています。 投影モジュールは、画像特徴をテキスト特徴と空間的に位置合わせする機能をモデルにもたらします。このモジュールは、層正規化を含む多層パーセプトロン (MLP) で構成されます。この設計により、モデルが視覚情報とテキスト情報をより効果的に融合して処理できるようになり、マルチモーダルの理解と生成の精度が向上します。 Yi-34B-Chat および Yi-6B-Chat 大規模言語モデルの導入により、Yi-VL に強力な言語理解および生成機能が提供されます。モデルのこの部分では、高度な自然言語処理テクノロジーを使用して、Yi-VL が複雑な言語構造を深く理解し、一貫した関連性のあるテキスト出力を生成できるようにします。
トレーニング方法
に関して、Yi-VL モデルのトレーニング プロセスは慎重に設計された 3 つの段階に分かれています。モデルの視覚および言語処理能力を包括的に向上させることを目指しています。 第一段階: Zero One Wish は、1 億個の「画像とテキスト」のペアのデータセットを使用して、ViT モジュールと投影モジュールをトレーニングします。この段階では、大規模な言語モデルとの効率的な調整を可能にしながら、特定のアーキテクチャにおける ViT の知識獲得機能を強化するために、画像解像度は 224x224 に設定されています。 第 2 段階: Zero One Thing により、ViT の画像解像度が 448x448 に増加します。この改善により、モデルは複雑な視覚的詳細をよりよく認識できるようになります。この段階では、約 2,500 万の画像とテキストのペアが使用されます。 第 3 段階: Zero One Wish は、マルチモーダル チャット インタラクションにおけるモデルのパフォーマンスを向上させることを目的として、トレーニング用にモデル全体のパラメーターを開きます。トレーニング データは、合計約 100 万の「画像とテキスト」のペアを含むさまざまなデータ ソースをカバーし、データの幅とバランスを確保しています。
ゼロワン シングスの技術チームは、強力な言語理解と生成機能に基づいて、他のマルチモーダル トレーニングを使用できることも検証しました。 BLIP、Flamingo、EVA などのメソッドは、効率的な画像理解とスムーズなグラフィックとテキストの対話を実行できるマルチモーダル グラフィックおよびテキスト モデルを迅速にトレーニングできます。 Yi シリーズ モデルはマルチモーダル モデルの基本言語モデルとして使用でき、オープン ソース コミュニティに新しいオプションを提供します。
現在、Yi-VLモデルはHugging FaceやModelScopeなどのプラットフォームで公開されており、ユーザーはこのモデルの多面的な機能をグラフィックを通じて体験することができます。次のリンクからテキスト ダイアログを利用できます。シーンでの優れたパフォーマンス。 Yi-VL マルチモーダル言語モデルの強力な機能を探索し、最先端の AI テクノロジーの成果を体験してください。 以上がYi-VL 大型モデルはオープンソースであり、MMMU および CMMMU で 1 位にランクされていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。