目次
評価結果
ホームページ テクノロジー周辺機器 AI AI試験と公開試験は目前で​​す! Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

AI試験と公開試験は目前で​​す! Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

May 16, 2023 pm 04:22 PM
ai マイクロソフト

言語モデルの機能がますます高くなるにつれて、既存の評価ベンチマークは少し幼稚になり、一部のタスクのパフォーマンスは人間よりもはるかに遅れています。

汎用人工知能 (AGI) の重要な機能は、人間レベルのタスクを処理するモデルの汎化能力ですが、人工データセットに依存する従来のベンチマークは人間の能力を正確に表していません。

最近、マイクロソフトの研究者は新しいベンチマーク AGIEval をリリースしました。特に、標準化されたテストにおける 「人間中心の」パフォーマンスの基本モデルのパフォーマンスを評価するために使用されます。 大学入学試験、公務員試験、法科大学院入学試験、数学コンテスト、司法試験など。

AI試験と公開試験は目前で​​す! Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

# 論文リンク: https://arxiv.org/pdf/2304.06364.pdf

データリンク: https://github.com/microsoft/AGIEval

研究者は AGIEval ベンチマークを使用して評価しましたGPT-4、ChatGPT、Text-Davinci-003 を含む 3 つの最先端の基本モデルによる実験結果では、SAT、LSAT、数学コンテストにおける GPT-4 のパフォーマンスが人間の平均レベルを超え、精度が高いことがわかりました。 SAT 数学テストの達成 中国大学入学試験英語テストの正答率は 92.5% に達し、現在の基本モデルの驚異的なパフォーマンスが示されています。

しかし、モデルの能力 (理解、知識、推論、計算) の包括的な分析で明らかなように、GPT-4 は複雑な推論やドメイン固有の知識を必要とするタスクにはあまり慣れていません。モデルの強みと限界。

AGIEval データセット

近年、GPT-4 などの大規模な基本モデルは、さまざまな分野で非常に強力な機能を示しており、人間の日常的な処理を支援することができます。イベントのほか、法律、医学、金融などの専門分野での意思決定に関するアドバイスも提供できます。

言い換えれば、人工知能システムは徐々に汎用人工知能 (AGI) に近づき、実現されつつあります。

しかし、AI が徐々に日常生活に統合されるにつれて、モデルの人間中心の汎化能力を評価し、潜在的な欠陥を特定し、複雑な人間中心のタスクを効果的に処理できるようにする方法が重要になります。 、さまざまな状況における信頼性と信頼性を確保するための推論スキルを評価することが重要です。

研究者らは、主に 2 つの設計原則に従って AGIEval データセットを構築しました:

1. 人間の脳レベルに重点を置く認知タスク

#「人間中心」設計の主な目標は、人間の認知と問題解決に密接に関連するタスクを中心に据えることです。有意義かつ包括的な方法での基礎となるモデルの一般化能力。

この目標を達成するために、研究者らは、大学入学試験、法律など、一般の人間の受験者のニーズを満たす、さまざまな公式、公的、高水準の入学試験および資格試験を選択しました。学校入学試験、数学試験、司法試験、そして高等教育への進学や新たなキャリアパスを求める何百万人もの人々が毎年受験する州公務員試験です。

人間レベルの能力を評価するためのこれらの公式に認められた基準に準拠することで、AGIEval は、モデルのパフォーマンスの評価が人間の意思決定と認知能力に直接関連していることを保証します。

#2. 現実世界のシナリオとの関連性

高水準から選択することにより、入学試験および資格試験の課題により、評価結果は、個人がさまざまな分野や状況で頻繁に遭遇する課題の複雑さと現実性を確実に反映します。

このアプローチは、人間の認知能力の観点からモデルのパフォーマンスを測定するだけでなく、実生活における適用性と有効性をより深く理解することもできます。つまり、人工知能の開発に役立ちます。より信頼性が高く、より実用的で、現実世界のさまざまな問題の解決に適したシステムです。

AI試験と公開試験は目前で​​す! Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

# 上記の設計原則に基づいて、研究者は人間レベルの推論と現実世界を重視した、標準化された高品質のさまざまな試験を選択しました。関連性、具体的には:

1. 一般大学入学試験

大学入学試験批判的思考、問題解決、分析スキルを必要とするさまざまな科目が含まれており、人間の認知に関連した大規模な言語モデルのパフォーマンスを評価するのに最適です。

具体的には、一般的な能力と科目固有の知識を評価できる、Graduate Record Exam (GRE)、Academic Assessment Test (SAT)、中国語大学入学試験 (Gaokao) が含まれます。高等教育機関への入学を目指す学生の割合。

データセットは、中国大学入学試験の 8 科目 (歴史、数学、英語、中国語、地理、生物学、化学、物理学) に対応する試験を収集しており、数学の問題は以下から選択します。 GRE;英語と数学の科目は SAT から選択され、ベンチマーク データ セットを構築しました。

2. ロースクール入学試験

ロースクール入学試験 (LSAT など) , 将来の法学生の推論と分析能力を測定するように設計されており、この試験には、論理的推論、読解力、分析的推論などのセクションが含まれています。受験者は複雑な情報を分析し、正確な結論を導き出すことが求められます。これらのタスクでは、法学の役割を評価できます。法的推論における言語モデルと分析スキル。

#3. 司法試験

は個人の法的能力を評価できます。法曹としてのキャリアを追求する 知識、分析スキル、倫理的理解 この試験では、憲法、契約法、刑法、財産法などの幅広い法律トピックが取り上げられ、受験者は法的原則と推論を効果的に適用する能力を証明する必要があります。このテストでは、専門的な法的知識と倫理的判断を実証できます。言語モデルのパフォーマンスをコンテキストで評価します。

4. 大学院管理者入学試験 (GMAT)

GMAT は標準化されたこの試験は、将来のビジネススクール大学院生の分析的、定量的、口頭的および総合的推論能力を評価することができます。分析的ライティング評価、総合的推論、定量的推論、口頭推論で構成され、受験者の批判的思考、データ分析、効果的なコミュニケーションを評価します。能力。

5. 高校数学コンテスト

これらのコンテストは、数学の幅広い分野をカバーします。トピックには、数論、代数、幾何学、組み合わせ論が含まれており、創造的な解決策を必要とする非日常的な問題が提示されることがよくあります。

具体的には、学生の数学的能力、創造性、問題解決能力をテストし、さらに評価できる米国数学コンテスト (AMC) と米国招待数学試験 (AIME) が含まれます。言語モデル処理 複雑かつ創造的な数学的問題を解決する能力、および新しい解決策を生成するモデルの能力。

#6. 国内公務員試験

個人の資質を評価することができます。公務員への参入を目指すための能力とスキルを問うこの試験には、一般知識、推論能力、言語スキル、中国のさまざまな公務員職の役割と責任に関連する特定の科目の専門知識の評価が含まれており、言語のパフォーマンスを測定することができます。行政の文脈におけるモデルと、政策開発、意思決定、公共サービスの提供プロセスにおけるその可能性。

評価結果

選択されたモデルは次のとおりです:

ChatGPT、OpenAI A によって開発された Dialogueユーザー インタラクションや動的な会話に参加できる新しい人工知能モデルは、大規模な命令データ セットを使用してトレーニングされ、ヒューマン フィードバックを伴う強化学習 (RLHF) によってさらに調整され、人間の期待と一致する文脈に沿った一貫したコンテンツを提供できるようになります。

GPT-4 は、第 4 世代 GPT モデルとして、より広範囲の知識ベースを含み、多くのアプリケーション シナリオで人間レベルのパフォーマンスを示します。 GPT-4 は、敵対的テストと ChatGPT を使用して繰り返し調整され、その結果、事実性、起動性、ルールへの準拠性が大幅に向上しました。

Text-Davinci-003 は GPT-3 と GPT-4 の間の中間 バージョンであり、細かい修正後の GPT よりも優れています。命令 -3 によるチューニングの方がパフォーマンスが向上します。

さらに、実験では人間の受験者の平均スコアと最高スコアも各タスクの人間のレベル制限として報告されましたが、これらは人間のレベルの限界を完全に表しているわけではありません。幅広いスキルと知識を持っています。

#ゼロショット/少数ショットの評価

ゼロサンプルの設定では、モデルは直接評価します。問題の評価: 数ショットのタスクでは、テスト サンプルの評価前に、同じタスクからの少数の例 (5 つなど) が入力されます。

モデルの推論能力をさらにテストするために、思考連鎖 (CoT) プロンプトも実験に導入されました。つまり、最初に「考えてみましょうステップ」というプロンプトを入力します。 「ステップごと」と入力して、指定された質問の説明を生成します。次に、プロンプト「説明は」を入力して、説明に基づいて最終的な回答を生成します。

AI試験と公開試験は目前で​​す! Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

ベンチマークの「多肢選択質問」では、標準の分類精度が使用されます。空白の質問」では、完全一致 (EM) および F1 インジケーターが使用されます。

AI試験と公開試験は目前で​​す! Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

実験結果からわかります:

1. GPT-4 は、Gaokao-English で 93.8% の精度、SAT-MAT​​H で 95% の精度など、すべてのタスク設定において類似製品よりも大幅に優れており、人間中心のタスクを処理する上で GPT-4 が優れた一般的な機能を備えていることを示しています。 。

2.

ChatGPT は、地理、生物学、化学、物理学、数学などの外部知識を必要とするタスクにおいて、Text-Davinci-003 よりも大幅に優れたパフォーマンスを発揮します。これは、ChatGPT がより強力な知識ベースを備えており、特定のドメインについての深い理解を必要とするタスクをより適切に処理できることを示しています。

一方、ChatGPT は、すべての評価設定と、純粋な理解を必要とし、英語や LSAT タスクなどの外部知識に大きく依存しないタスクにおいて、Text-Davinci- よりわずかに優れています。 .003、または同等の結果。この観察結果は、両方のモデルが、専門的なドメイン知識を必要とせずに、言語理解と論理的推論を中心としたタスクを処理できることを意味します。

3. これらのモデルの全体的なパフォーマンスは良好ですが、

すべての言語モデルは、MATH や LSAT-AR 、 GK- などの複雑な推論タスク ではパフォーマンスが低くなります。物理学と GK-Math では、高度な推論と問題解決のスキルを必要とするタスクを処理する際のこれらのモデルの限界を強調しています。

複雑な推論問題を処理する際に観察された困難は、モデルの一般的な推論機能の向上を目的とした将来の研究開発の機会となります。

4. ゼロショット学習と比較すると、

少数ショット学習は通常、限定的なパフォーマンス向上しかもたらしません。これは、現在の大規模言語モデルのゼロショット学習が不十分であることを示しています。ショット学習機能は数ショット学習機能に近づいており、これは、数ショットのパフォーマンスがゼロショットよりもはるかに優れていたオリジナルの GPT-3 モデルと比べて大きな改善を示しています。

この開発の合理的な説明は、現在の言語モデルにおける人間による調整と命令の調整が強化されたことです。これらの改善により、モデルは事前にタスクをよりよく理解できるようになります。意味とコンテキスト、したがって、ショットがゼロの状況でも優れたパフォーマンスを発揮できるようになり、指導の有効性が証明されました。

以上がAI試験と公開試験は目前で​​す! Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

See all articles