中国語と英語の 2 つの権威あるリストをリードする Kai-Fu Zero は、マルチモーダル大型モデル 解答用紙を手渡しました。
最初のオープンソース大型モデル Yi-34B および Yi-6B のリリースから 3 か月も経っていません。
このモデルは Yi Vision Language (Yi-VL) と呼ばれ、現在、世界に対して正式にオープンソースです。
は Yi シリーズに属し、
Yi-VL-34B と Yi-VL-6B の 2 つのバージョンもあります。
グラフィックやテキストの対話などのさまざまなシナリオで Yi-VL のパフォーマンスを体験するために、まず 2 つの例を見てみましょう:
Yi-VL 各図看板の内容説明だけでなく、「天井」まで徹底的に分析しました。
Yi-VL は中国語でも、明確かつ体系的に正確に表現できます:
さらに、公式テスト結果も提供されました。
Yi-VL-34B は、英語のデータセット MMMU で 41.6% の精度を持ち、55.7% の精度を持つ GPT-4V に次いで 2 番目であり、一連のマルチモーダルを上回っています。大型モデル。
中国のデータセット CMMMU では、Yi-VL-34B の精度は 36.5% であり、これは現在の最先端のオープンソース マルチモーダル モデルを上回っています。
Yi-VL は Yi 言語モデルに基づいて開発されています。Yi 言語モデルに基づいた強力なテキスト理解機能を確認できます。画像を並べるだけで、優れたマルチモーダル視覚言語モデルを取得できます。 - これも Yi-VL モデルの核となるハイライトの 1 つです。
アーキテクチャ設計の観点から見ると、Yi-VL モデルはオープンソース LLaVA アーキテクチャに基づいており、次の 3 つの主要モジュールが含まれています:
について、Yi - VL モデルのトレーニング プロセスは 3 つの段階に分かれており、モデルの視覚処理能力と言語処理能力を包括的に向上させることを目的としています。 最初の段階では、ViT モジュールと投影モジュールが 1 億個の「画像とテキスト」のペアのデータセットを使用してトレーニングされます。
この段階では、大規模な言語モデルとの効率的な調整を達成しながら、特定のアーキテクチャにおける ViT の知識獲得機能を強化するために、画像解像度は 224x224 に設定されています。
第 2 段階では、ViT の画像解像度が 448x448 に増加し、モデルが複雑な視覚的詳細をよりよく認識できるようになります。この段階では約 2,500 万の「画像とテキスト」のペアが使用されます。
第 3 段階では、マルチモーダル チャット インタラクションにおけるモデルのパフォーマンスを向上させることを目的として、モデル全体のパラメーターがトレーニング用に公開されます。トレーニング データは、合計約 100 万の「画像とテキスト」のペアを含む多様なデータ ソースをカバーし、データの幅とバランスを確保しています。
zero-yiwu 技術チームは、BLIP、Flamingo、EVA などの他のマルチモーダル トレーニング方法を使用して、イー言語モデルの強力な言語理解および生成機能に基づいて効率的な画像を迅速にトレーニングできることも検証しました。グラフィック テキストの対話を理解し、スムーズにするためのマルチモーダル グラフィック テキスト モデル。
Yi シリーズ モデルは、マルチモーダル モデルの基本言語モデルとして使用でき、オープン ソース コミュニティに新しいオプションを提供します。同時に、ゼロワン シングスのマルチモーダル チームは、より速く GPT-4V に近づき、GPT-4V を超え、世界初のエシュロン レベルに到達するために、マルチモーダルの事前トレーニングをゼロから模索しています。
Yi-VL モデルは現在、Hugging Face や ModelScope などのプラットフォームで公開されており、ユーザーはグラフィックやテキストの対話などのさまざまなシナリオでこのモデルのパフォーマンスを直接体験できます。
新しいマルチモーダル ベンチマーク テスト MMMU では、Yi-VL-34B と Yi-VL-6B の両方のバージョンが良好なパフォーマンスを示しました。
MMMU (フルネーム Massive Multi-discipline Multi-modal Understanding & Reasoning Massive Multi-discipline Multi-modal Understanding and Reasoning) データ セットには、6 つの中核分野からの 11,500 人の被験者が含まれています (芸術とデザイン、ビジネス、科学、健康と医学、人文科学と社会科学、技術と工学) 非常に異質な画像タイプと絡み合ったテキスト画像情報を含む質問は、モデルの高度な認識能力と推論能力が非常に高いレベルに達することに課題をもたらします。要求します。
Yi-VL-34B は、このテスト セットで 41.6% の精度で一連のマルチモーダル大型モデルを上回り、GPT-4V に次いで 2 位となりました (55.7%)、学際的な知識を理解し、応用する高い能力を示しています。
同様に、中国向けに作成された CMMMU データセットでは、Yi-VL モデルは「中国人をよりよく理解する」という独自の利点を示しています。
CMMMU には、大学の試験、テスト、教科書から派生した約 12,000 の中国語のマルチモーダルな質問が含まれています。
その中で、GPT-4V はこのテスト セットで 43.7% の精度を持ち、次に Yi-VL-34B が 36.5% の精度で、現在トップをリードしています。最先端のオープンソース マルチモーダル モデル。
プロジェクトアドレス:
[1]https://huggingface.co/01-ai
[2] https://www.modelscope.cn/organization/01ai
以上がKai-Fu Lee は、世界クラスのオープンソース マルチモーダル大規模モデルをリリースした Zero One Wish に参加しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。