ホームページ テクノロジー周辺機器 AI 中国語モデルラッシュテスト:SenseTime、Shanghai AI Labなどが新リリース「Scholar・Puyu」

中国語モデルラッシュテスト:SenseTime、Shanghai AI Labなどが新リリース「Scholar・Puyu」

Jun 07, 2023 pm 07:19 PM

マシンの心臓部のリリース

ハートオブマシン編集部

今日、毎年恒例の大学入学試験が正式に始まりました。

例年とは異なり、全国の受験者が試験室に殺到したとき、いくつかの大規模な言語モデルもこのコンテストで特別な役割を果たしました。

AI の大型言語モデルが人間に近い知能を実証することが増えているため、言語モデルの知能レベルを評価するために、人間向けに設計された高難度で包括的な試験がますます導入されています。

例えば、GPT-4の技術レポートでは、OpenAIは主にさまざまな分野の試験を通じてモデルの能力をテストしていますが、GPT-4が示す優れた「受験能力」も予想外です。

中国語モデルチャレンジ大学入学試験レポートの結果はどうなりましたか? ChatGPTに追いつくことができるでしょうか? 「候補者」のパフォーマンスを見てみましょう。

包括的な「大きな試験」: 「Scholar・Puyu」の複数の結果が ChatGPT を上回っています

最近、SenseTimeと上海AI研究所は、香港中文大学、復旦大学、上海交通大学と協力して、1000億レベルのパラメータの大規模言語モデル「Scholar Puyu」(InternLM)をリリースした。

「Scholar·Puyu」には 1,040 億のパラメータがあり、1 兆 6,000 億のトークンを含む多言語の高品質データセットでトレーニングされています。 総合的な評価の結果、「学者プユ」は知識習得、読解、数的推論、多言語翻訳などの複数の試験課題で優れた成績を収めただけでなく、総合的な能力も高いことがわかり、非常に成功しました。総合試験で優秀な成績を収めており、中国語大学入学試験の各科目のデータセット(GaoKao)をはじめ、多くの中国語試験で優れた成績を収めており、ChatGPTを超える成績を収めています。

「Scholar・Puyu」合同チームは、世界で最も影響力のある

4 つの包括的な試験評価セット

: を含む 20 以上の評価を選択してテストしました。

カリフォルニア大学バークレー校およびその他の大学によって構築されたマルチタスク テスト評価セット MMLU;
  • AGIEval、Microsoft Research が開始した科目試験評価セット (中国の大学入学試験、司法試験、米国の SAT、LSAT、GRE、GMAT などを含む);
  • C-Eval、上海交通大学、清華大学、エディンバラ大学が共同で構築した中国語モデルの包括的な試験評価セット;
  • および Gaokao (復旦大学の研究チームが作成した大学入試問題集);
  • 研究室合同チームが「Scholar Puyu」、GLM-130B、LLaMA-65B、ChatGPT、GPT-4の総合テストを実施し、上記4つの評価セットの結果を以下のように比較しました(100点満点) 。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」 「Scholar Puyu」は、GLM-130B や LLaMA-65B などの学術オープンソース モデルを大幅に上回っているだけでなく、AGIEval、C-Eval、Gaokao などの複数の包括的な試験で ChatGPT をリードしています。 main MMLU は ChatGPT と同じレベルを達成します。これらの総合的な試験の結果は、「Scholar Puyu」の確かな知識と優れた総合力を反映しています。

「Scholar・Puyu」は試験評価で優れた成績を収めましたが、大規模な言語モデルにはまだ多くの制限があることも評価からわかります。 「Scholar Puyu」はコンテキスト ウィンドウの長さが 2K に制限されており (GPT-4 のコンテキスト ウィンドウの長さは 32K)、長いテキストの理解、複雑な推論、コードの記述、および数理論理学の演繹には明らかな制限があります。さらに、実際の会話では、大規模な言語モデルには依然として錯覚や概念的な混乱などの共通の問題が存在します。これらの制限により、オープン シナリオで大規模な言語モデルを使用するには、まだ長い道のりがあります。

4 つの包括的な試験評価データセットの結果

MMLU は、カリフォルニア大学バークレー校 (UC バークレー)、コロンビア大学、シカゴ大学、UIUC が共同で構築したマルチタスクのテスト評価セットで、初等数学、物理学、化学、コンピューター サイエンス、米国史をカバーしています。 、法律、経済、外交、その他多くの分野。 細分化されたアカウントの結果は次の表に示されています。

図の太字は最良の結果を示し、下線は 2 番目の結果を示します

AGIEval は、Microsoft Research が今年提案した新しい科目試験評価セットで、主な目的は、指向性試験を通じて言語モデルの能力を評価し、それによってモデルの知能と人間の知能の比較を実現することです。

この評価セットは、中国の大学入学試験、司法試験、米国のSAT、LSAT、GRE、GMATなどの重要な試験を含む、中国と米国のさまざまな試験に基づいた19の評価項目で構成されています。これら 19 専攻のうち 9 専攻は中国の大学入学試験からのものであり、通常、重要な評価サブセット AGIEval (GK) としてリストされていることに言及する価値があります。

次の表でGKの付いた科目は中国語の大学入試科目です。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

図の太字は最良の結果を示し、下線は 2 番目の結果を示します

C-Eval は、上海交通大学、清華大学、エディンバラ大学が共同で構築した中国語モデルの包括的な試験評価セットです。

数学、物理、化学、生物学、歴史、政治、コンピュータなどの科目試験から、公務員、公認会計士、弁護士、医師などの専門試験まで、52科目約14,000問の試験問題を収録しています。

テスト結果はリーダーボードから取得できます。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

こちらのリンクはCEVA評価コンテストのランキング一覧です

Gaokao は、復旦大学の研究チームが作成した中国大学入学試験問題に基づいた包括的な試験評価セットで、中国大学入学試験のさまざまな科目と、次のような複数の問題タイプが含まれています。多肢選択問題、穴埋め問題、一問一答形式の質問です。

GaoKao の評価では、プロジェクトの 75% 以上で「Scholar・Puyu」が ChatGPT をリードしています。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

副評価:読解力・推論能力に優れる

「偏り」を避けるために、研究者らはまた、「Scholar Puyu」などの言語モデルの下位項目の能力を、複数の学術評価セットを通じて評価および比較しました。

その結果、「Scholar Puyu」は中国語と英語の読解力に優れているだけでなく、数的推理、プログラミング能力などの評価でも良好な成績を収めていることがわかりました。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

知識の質問と回答の点では、「Scholar Puyu」は TriviaQA と NaturalQuestions で 69.8 点と 27.6 点を獲得し、どちらも LLaMA-65B (68.2 点と 23.8 点) を上回りました。

読解力(英語)という点では、「Scholar・Puyu」はLLaMA-65BやChatGPTよりも明らかに優れています。 Puyu の中学と高校の英語読解では 92.7 点と 88.9 点、ChatGPT では 85.6 点と 81.2 点、LLaMA-65B ではさらに低かった。

中国語理解の点で「Scholar Puyu」の結果は、中国語主要2モデルERNIE-260BとGLM-130Bを総合的に上回りました。

多言語翻訳に関しては、「Scholar・Puyu」の多言語翻訳の平均スコアは33.9で、LLaMA(平均スコア15.1)を大きく上回りました。

数学的推論の点では、「Scholar Puyu」は、評価に広く使用されている 2 つの数学テストである GSM8K と MATH でそれぞれ 62.9 点と 14.9 点を獲得し、Google の PaLM を大幅に上回りました。 -540B (スコア 56.5 と 8.8) )およびLLaMA-65B(スコア50.9および10.9)。

プログラミング能力の観点から見て、

「Scholar Puyu」は、HumanEval と MBPP という 2 つの最も代表的な評価で、それぞれ 28.1 と 41.4 のスコアを獲得しました (コーディング分野で微調整した後、HumanEval のスコアは45.7に改善)、PaLM-540B(スコア26.2および36.8)およびLLaMA-65B(スコア23.7および37.7)を大幅に上回りました。 さらに、研究者らは「Scholar Puyu」の安全性についても評価しました。TruthfulQA (主に回答の事実の正確性を評価) と CrowS-Pairs (主に回答にバイアスが含まれているかどうかを評価) について、「Scholar Puyu」の言語一流のレベルに達しました。

以上が中国語モデルラッシュテスト:SenseTime、Shanghai AI Labなどが新リリース「Scholar・Puyu」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

カーソルAIでバイブコーディングを試してみましたが、驚くべきことです! カーソルAIでバイブコーディングを試してみましたが、驚くべきことです! Mar 20, 2025 pm 03:34 PM

バイブコーディングは、無限のコード行の代わりに自然言語を使用してアプリケーションを作成できるようにすることにより、ソフトウェア開発の世界を再構築しています。 Andrej Karpathyのような先見の明に触発されて、この革新的なアプローチは開発を許可します

Dall-E 3の使用方法:ヒント、例、および機能 Dall-E 3の使用方法:ヒント、例、および機能 Mar 09, 2025 pm 01:00 PM

Dall-E 3:生成AI画像作成ツール 生成AIはコンテンツの作成に革命をもたらし、Openaiの最新の画像生成モデルであるDall-E 3が最前線にあります。 2023年10月にリリースされ、前任者のDall-EとDall-E 2に基づいています

2025年2月のトップ5 Genai発売:GPT-4.5、Grok-3など! 2025年2月のトップ5 Genai発売:GPT-4.5、Grok-3など! Mar 22, 2025 am 10:58 AM

2025年2月は、生成AIにとってさらにゲームを変える月であり、最も期待されるモデルのアップグレードと画期的な新機能のいくつかをもたらしました。 Xai’s Grok 3とAnthropic's Claude 3.7 SonnetからOpenaiのGまで

オブジェクト検出にYolo V12を使用する方法は? オブジェクト検出にYolo V12を使用する方法は? Mar 22, 2025 am 11:07 AM

Yolo(あなたは一度だけ見ています)は、前のバージョンで各反復が改善され、主要なリアルタイムオブジェクト検出フレームワークでした。最新バージョンYolo V12は、精度を大幅に向上させる進歩を紹介します

Elon Musk&Sam Altmanは、5,000億ドルを超えるスターゲートプロジェクトを超えて衝突します Elon Musk&Sam Altmanは、5,000億ドルを超えるスターゲートプロジェクトを超えて衝突します Mar 08, 2025 am 11:15 AM

Openai、Softbank、Oracle、Nvidiaなどのハイテク大手に支援され、米国政府が支援する5,000億ドルのStargate AIプロジェクトは、アメリカのAIリーダーシップを固めることを目指しています。 この野心的な仕事は、AIの進歩によって形作られた未来を約束します

SORA vs VEO 2:よりリアルなビデオを作成するのはどれですか? SORA vs VEO 2:よりリアルなビデオを作成するのはどれですか? Mar 10, 2025 pm 12:22 PM

GoogleのVEO 2とOpenaiのSORA:どのAIビデオジェネレーターが最高でしたか? どちらのプラットフォームも印象的なAIビデオを生成しますが、その強みはさまざまな領域にあります。 この比較は、さまざまなプロンプトを使用して、どのツールがニーズに最適かを明らかにします。 t

Google' s Gencast:Gencast Mini Demoを使用した天気予報 Google' s Gencast:Gencast Mini Demoを使用した天気予報 Mar 16, 2025 pm 01:46 PM

Google Deepmind's Gencast:天気予報のための革新的なAI 天気予報は、初歩的な観察から洗練されたAI駆動の予測に移行する劇的な変化を受けました。 Google DeepmindのGencast、グラウンドブレイク

chatgptよりも優れたAIはどれですか? chatgptよりも優れたAIはどれですか? Mar 18, 2025 pm 06:05 PM

この記事では、Lamda、Llama、GrokのようなChatGptを超えるAIモデルについて説明し、正確性、理解、業界への影響における利点を強調しています(159文字)

See all articles