中国の LMM 体格に適した最新のベンチマーク CMMMU: 30 を超えるサブディビジョンと 12,000 の専門家レベルの質問が含まれています
マルチモーダル大規模モデル (LMM) が進歩し続けるにつれて、LMM のパフォーマンスを評価する必要性も高まっています。特に中国語環境では、LMM の高度な知識と推論能力を評価することがより重要になります。
これに関連して、中国語のさまざまなタスクにおける基本モデルの専門家レベルのマルチモーダル理解能力を評価するために、香港科学大学 M-A-P オープンソース コミュニティウォータールー大学とテクノロジー、および Zero-One Everything は共同で CMMMU (中国の大規模多分野、多峰性の理解と推論) ベンチマークを開始しました。このベンチマークは、中国語での大規模な多分野のマルチモーダルな理解と推論のための包括的な評価プラットフォームを提供することを目的としています。このベンチマークを使用すると、研究者はさまざまなタスクでモデルをテストし、マルチモーダルな理解能力を専門レベルと比較できます。この共同プロジェクトの目標は、中国語の多様な理解と推論の分野の発展を促進し、関連研究に標準化された参考資料を提供することです。
CMMMU は、芸術、ビジネス、健康と医学、科学、人文社会科学、テクノロジーとエンジニアリングを含む 6 つの主要カテゴリの科目をカバーしており、30 以上の下位分野の科目が含まれています。下図はサブ分野科目ごとの出題例を示しています。 CMMMU は、中国の文脈における最初のマルチモーダル ベンチマークの 1 つであり、LMM の複雑な理解と推論能力を検査する数少ないマルチモーダル ベンチマークの 1 つです。
#データセットの構築
##データ収集##データ収集は 3 つの段階に分かれています。まず、研究者らは、Web ページや書籍など、著作権ライセンス要件を満たす各主題の問題ソースを収集しました。このプロセスでは、データの多様性と正確性を確保するために、質問ソースの重複を避けるために懸命に取り組みました。 次に、研究者らは、さらなるアノテーションを得るために質問ソースをクラウドソーシングのアノテーターに転送しました。すべてのアノテーターは学士以上の学位を持った個人であり、注釈付きの質問と関連する説明を確実に検証できます。アノテーションのプロセス中、研究者はアノテーターにアノテーションの原則に厳密に従うことを要求します。たとえば、回答に画像を必要としない質問を除外し、可能な限り同じ画像を使用する質問を除外し、回答に専門知識を必要としない質問を除外します。 最後に、データセット内の各被験者の質問数のバランスをとるために、研究者は特に被験者の質問数を減らしました。そうすることで、データセットの完全性と代表性が保証され、その後の分析と研究がより正確かつ包括的に行われるようになります。
データセットのクリーニング
CMMMU のデータ品質をさらに向上させるために、研究者は厳格なデータ品質管理プロトコルに従います。 。まず、各質問は論文の著者の少なくとも 1 人によって個人的に検証されます。次に、データ汚染の問題を回避するために、いくつかの LLM が OCR テクノロジーに頼らずに回答できる質問も選別しました。これらの対策により、CMMMU データの信頼性と正確性が保証されます。
データセットの概要
CMMMU には合計 12,000 の質問があり、少数のサンプルの開発セットに分割されています。検証セットとテストセット。少数サンプルの開発セットには各科目につき約 5 つの質問が含まれ、検証セットには 900 の質問が含まれ、テスト セットには 11,000 の質問が含まれます。問題は病理図、楽譜図、回路図、化学構造図など39種類の絵から出題されます。問題は、知的難易度ではなく論理的な難易度に基づいて、簡単 (30%)、中級 (58%)、難しい (12%) の 3 つの難易度に分かれています。質問の統計の詳細については、表 2 と表 3 を参照してください。 #######################################実験########## ##チームは、主流のさまざまな中国語と英語のバイリンガル LMM と、CMMMU 上のいくつかの LLM のパフォーマンスをテストしました。クローズド ソース モデルとオープン ソース モデルの両方が含まれます。評価プロセスでは、微調整または少数ショット設定の代わりにゼロショット設定を使用して、モデルの生の機能をチェックします。 LLM は、画像 OCR 結果のテキストを入力として使用する実験も追加しました。すべての実験は、NVIDIA A100 グラフィックス プロセッサで実行されました。
#主な結果
表 4 に実験結果を示します。
いくつかの重要な発見は次のとおりです:
-CMMMU は MMMU よりも困難であり、これは MMMU が非常に優れている場合です。挑戦的な前提。
中国語のコンテキストにおける GPT-4V の精度はわずか 41.7% ですが、英語のコンテキストにおける精度は 55.7% です。これは、既存の言語間汎化手法が、最先端のクローズドソース LMM にとっても十分ではないことを示しています。
#- MMMU と比較すると、国内の代表的なオープンソース モデルと GPT-4V の差は比較的小さいです。
MMMU 上の Qwen-VL-Chat と GPT-4V の差は 13.3% ですが、MMMU 上の BLIP2-FLAN-T5-XXL と GPT-4V の差は 13.3% です。は21.9%です。驚くべきことに、Yi-VL-34B は、CMMMU 上のオープンソース バイリンガル LMM と GPT-4V の間のギャップを 7.5% まで狭めます。これは、中国環境では、オープンソース バイリンガル LMM が GPT-4V と同等であることを意味します。これは、オープンソース コミュニティにおける有望な開発です。
# - オープンソース コミュニティでは、中国の専門家向けのマルチモーダル汎用人工知能 (AGI) を追求する取り組みが始まったばかりです。
チームは、最近リリースされた Qwen-VL-Chat、Yi-VL-6B、Yi-VL-34B を除き、すべてオープンソースのバイリンガル LMM であると指摘しました。コミュニティは、CMMMU の頻繁な選択に匹敵する精度しか達成できません。
#さまざまな質問の難易度と質問の種類の分析
- さまざまな質問の種類
Yi-VL シリーズ、Qwen-VL-Plus、GPT-4V の違いは主に、多肢選択式の質問に答える能力の違いによるものです。#さまざまな質問タイプの結果を表 5 に示します。
#- 異なる質問の難易度
結果で注目に値するのは、中程度の問題や難しい問題に直面した場合に最適なオープンソース LMM (つまり Yi-VL-34B) と GPT-4V が存在するということです。さらに大きなギャップ。これは、オープンソース LMM と GPT-4V の主な違いが、複雑な条件下での計算と推論の能力であるという強力な証拠です。
さまざまな問題の難易度の結果を表 6 に示します。
エラー分析
##研究者たちは、GPT-4V の誤った回答を注意深く分析しました。以下の図に示すように、主なエラーの種類は、認識エラー、知識不足、推論エラー、回答拒否、注釈エラーです。これらのエラー タイプを分析することは、現在の LMM の機能と制限を理解するための鍵であり、将来の設計とトレーニング モデルの改善の指針にもなります。
- 認識されたエラー (26%):
認識されたエラーは、生成されたエラーの例ですby GPT-4V 主な理由の 1 つ。一方で、モデルが画像を理解できない場合、画像の根底にある認識にバイアスが生じ、誤った応答につながります。一方、モデルがドメイン固有の知識、暗黙の意味、または不明瞭な式のあいまいさに遭遇すると、ドメイン固有の知覚エラーが発生することがよくあります。この場合、GPT-4V はテキスト情報ベースの回答 (質問や選択肢など) に依存する傾向があり、視覚的な入力よりもテキスト情報を優先するため、マルチモーダル データの理解に偏りが生じます。 - 推論エラー (26%) :
推論エラーは、GPT-4V が誤った例を生成するもう 1 つの主要な要因です。モデルが画像やテキストによって伝えられる意味を正しく認識したとしても、複雑な論理的および数学的推論が必要な問題を解決する際の推論中にエラーが発生する可能性があります。通常、このエラーは、モデルの論理的および数学的推論能力が弱いことが原因で発生します。 - 知識の欠如 (22%): 専門知識の欠如も、GPT-4V に対する不正解の理由の 1 つです。 CMMMU は LMM エキスパート AGI を評価するためのベンチマークであるため、さまざまな分野やサブフィールドにおける専門家レベルの知識が必要です。したがって、LMM に専門家レベルの知識を注入することも、取り組むことができる方向の 1 つです。 #- 回答拒否 (12%): モデルが回答を拒否することもよくあります。分析を通じて、彼らはモデルが質問に答えることを拒否したいくつかの理由を指摘しました: (1) モデルが画像から情報を認識できなかった; (2) それは宗教問題または個人的な実生活情報に関わる質問であり、モデルは(3) 質問に性別や主観的な要素が含まれる場合、モデルは直接的な回答を提供することを避けます。 - エラー: 残りのエラーには、テキスト理解エラー (7%)、注釈エラー (2%)、回答抽出エラーが含まれます。 (5%)。これらのエラーは、複雑な構造の追跡機能、複雑なテキスト ロジックの理解、応答生成の制限、データ注釈のエラー、応答一致抽出で遭遇する問題など、さまざまな要因によって発生します。 CMMMU ベンチマークは、高度な汎用人工知能 (AGI) の開発における大きな進歩を示しています。 CMMMU は、最新の大規模マルチモーダル モデル (LMM) を厳密に評価し、基本的な知覚スキル、複雑な論理的推論、特定の領域における深い専門知識をテストするように設計されています。この研究では、中国語と英語のバイリンガル文脈における LMM の推論能力を比較することで、その違いを指摘しました。この詳細な評価は、モデルが各分野の経験豊富な専門家の熟練度にどの程度達していないかを判断する上で重要です。 結論
以上が中国の LMM 体格に適した最新のベンチマーク CMMMU: 30 を超えるサブディビジョンと 12,000 の専門家レベルの質問が含まれていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません
