AI試験と公開試験は目前です！ Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース-AI-php.cn

評価結果

ホームページ

テクノロジー周辺機器

AI試験と公開試験は目前です！ Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

PHPz

May 16, 2023 pm 04:22 PM

ai マイクロソフト

言語モデルの機能がますます高くなるにつれて、既存の評価ベンチマークは少し幼稚になり、一部のタスクのパフォーマンスは人間よりもはるかに遅れています。

汎用人工知能 (AGI) の重要な機能は、人間レベルのタスクを処理するモデルの汎化能力ですが、人工データセットに依存する従来のベンチマークは人間の能力を正確に表していません。

最近、マイクロソフトの研究者は新しいベンチマーク AGIEval をリリースしました。特に、標準化されたテストにおける「人間中心の」パフォーマンスの基本モデルのパフォーマンスを評価するために使用されます。大学入学試験、公務員試験、法科大学院入学試験、数学コンテスト、司法試験など。

AI試験と公開試験は目前です！ Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

# 論文リンク: https://arxiv.org/pdf/2304.06364.pdf

データリンク: https://github.com/microsoft/AGIEval

研究者は AGIEval ベンチマークを使用して評価しましたGPT-4、ChatGPT、Text-Davinci-003 を含む 3 つの最先端の基本モデルによる実験結果では、SAT、LSAT、数学コンテストにおける GPT-4 のパフォーマンスが人間の平均レベルを超え、精度が高いことがわかりました。 SAT 数学テストの達成中国大学入学試験英語テストの正答率は 92.5% に達し、現在の基本モデルの驚異的なパフォーマンスが示されています。

しかし、モデルの能力 (理解、知識、推論、計算) の包括的な分析で明らかなように、GPT-4 は複雑な推論やドメイン固有の知識を必要とするタスクにはあまり慣れていません。モデルの強みと限界。

AGIEval データセット

近年、GPT-4 などの大規模な基本モデルは、さまざまな分野で非常に強力な機能を示しており、人間の日常的な処理を支援することができます。イベントのほか、法律、医学、金融などの専門分野での意思決定に関するアドバイスも提供できます。

言い換えれば、人工知能システムは徐々に汎用人工知能 (AGI) に近づき、実現されつつあります。

しかし、AI が徐々に日常生活に統合されるにつれて、モデルの人間中心の汎化能力を評価し、潜在的な欠陥を特定し、複雑な人間中心のタスクを効果的に処理できるようにする方法が重要になります。、さまざまな状況における信頼性と信頼性を確保するための推論スキルを評価することが重要です。

研究者らは、主に 2 つの設計原則に従って AGIEval データセットを構築しました:

1. 人間の脳レベルに重点を置く認知タスク

#「人間中心」設計の主な目標は、人間の認知と問題解決に密接に関連するタスクを中心に据えることです。有意義かつ包括的な方法での基礎となるモデルの一般化能力。

この目標を達成するために、研究者らは、大学入学試験、法律など、一般の人間の受験者のニーズを満たす、さまざまな公式、公的、高水準の入学試験および資格試験を選択しました。学校入学試験、数学試験、司法試験、そして高等教育への進学や新たなキャリアパスを求める何百万人もの人々が毎年受験する州公務員試験です。

人間レベルの能力を評価するためのこれらの公式に認められた基準に準拠することで、AGIEval は、モデルのパフォーマンスの評価が人間の意思決定と認知能力に直接関連していることを保証します。

#2. 現実世界のシナリオとの関連性

高水準から選択することにより、入学試験および資格試験の課題により、評価結果は、個人がさまざまな分野や状況で頻繁に遭遇する課題の複雑さと現実性を確実に反映します。

このアプローチは、人間の認知能力の観点からモデルのパフォーマンスを測定するだけでなく、実生活における適用性と有効性をより深く理解することもできます。つまり、人工知能の開発に役立ちます。より信頼性が高く、より実用的で、現実世界のさまざまな問題の解決に適したシステムです。

AI試験と公開試験は目前です！ Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

# 上記の設計原則に基づいて、研究者は人間レベルの推論と現実世界を重視した、標準化された高品質のさまざまな試験を選択しました。関連性、具体的には:

1. 一般大学入学試験

大学入学試験批判的思考、問題解決、分析スキルを必要とするさまざまな科目が含まれており、人間の認知に関連した大規模な言語モデルのパフォーマンスを評価するのに最適です。

具体的には、一般的な能力と科目固有の知識を評価できる、Graduate Record Exam (GRE)、Academic Assessment Test (SAT)、中国語大学入学試験 (Gaokao) が含まれます。高等教育機関への入学を目指す学生の割合。

データセットは、中国大学入学試験の 8 科目 (歴史、数学、英語、中国語、地理、生物学、化学、物理学) に対応する試験を収集しており、数学の問題は以下から選択します。 GRE;英語と数学の科目は SAT から選択され、ベンチマークデータセットを構築しました。

2. ロースクール入学試験

ロースクール入学試験 (LSAT など) , 将来の法学生の推論と分析能力を測定するように設計されており、この試験には、論理的推論、読解力、分析的推論などのセクションが含まれています。受験者は複雑な情報を分析し、正確な結論を導き出すことが求められます。これらのタスクでは、法学の役割を評価できます。法的推論における言語モデルと分析スキル。

#3. 司法試験

は個人の法的能力を評価できます。法曹としてのキャリアを追求する知識、分析スキル、倫理的理解この試験では、憲法、契約法、刑法、財産法などの幅広い法律トピックが取り上げられ、受験者は法的原則と推論を効果的に適用する能力を証明する必要があります。このテストでは、専門的な法的知識と倫理的判断を実証できます。言語モデルのパフォーマンスをコンテキストで評価します。

4. 大学院管理者入学試験 (GMAT)

GMAT は標準化されたこの試験は、将来のビジネススクール大学院生の分析的、定量的、口頭的および総合的推論能力を評価することができます。分析的ライティング評価、総合的推論、定量的推論、口頭推論で構成され、受験者の批判的思考、データ分析、効果的なコミュニケーションを評価します。能力。

5. 高校数学コンテスト

これらのコンテストは、数学の幅広い分野をカバーします。トピックには、数論、代数、幾何学、組み合わせ論が含まれており、創造的な解決策を必要とする非日常的な問題が提示されることがよくあります。

具体的には、学生の数学的能力、創造性、問題解決能力をテストし、さらに評価できる米国数学コンテスト (AMC) と米国招待数学試験 (AIME) が含まれます。言語モデル処理複雑かつ創造的な数学的問題を解決する能力、および新しい解決策を生成するモデルの能力。

#6. 国内公務員試験

個人の資質を評価することができます。公務員への参入を目指すための能力とスキルを問うこの試験には、一般知識、推論能力、言語スキル、中国のさまざまな公務員職の役割と責任に関連する特定の科目の専門知識の評価が含まれており、言語のパフォーマンスを測定することができます。行政の文脈におけるモデルと、政策開発、意思決定、公共サービスの提供プロセスにおけるその可能性。

評価結果

選択されたモデルは次のとおりです:

ChatGPT、OpenAI A によって開発された Dialogueユーザーインタラクションや動的な会話に参加できる新しい人工知能モデルは、大規模な命令データセットを使用してトレーニングされ、ヒューマンフィードバックを伴う強化学習 (RLHF) によってさらに調整され、人間の期待と一致する文脈に沿った一貫したコンテンツを提供できるようになります。

GPT-4 は、第 4 世代 GPT モデルとして、より広範囲の知識ベースを含み、多くのアプリケーションシナリオで人間レベルのパフォーマンスを示します。 GPT-4 は、敵対的テストと ChatGPT を使用して繰り返し調整され、その結果、事実性、起動性、ルールへの準拠性が大幅に向上しました。

Text-Davinci-003 は GPT-3 と GPT-4 の間の中間バージョンであり、細かい修正後の GPT よりも優れています。命令 -3 によるチューニングの方がパフォーマンスが向上します。

さらに、実験では人間の受験者の平均スコアと最高スコアも各タスクの人間のレベル制限として報告されましたが、これらは人間のレベルの限界を完全に表しているわけではありません。幅広いスキルと知識を持っています。

#ゼロショット/少数ショットの評価

ゼロサンプルの設定では、モデルは直接評価します。問題の評価: 数ショットのタスクでは、テストサンプルの評価前に、同じタスクからの少数の例 (5 つなど) が入力されます。

モデルの推論能力をさらにテストするために、思考連鎖 (CoT) プロンプトも実験に導入されました。つまり、最初に「考えてみましょうステップ」というプロンプトを入力します。「ステップごと」と入力して、指定された質問の説明を生成します。次に、プロンプト「説明は」を入力して、説明に基づいて最終的な回答を生成します。

AI試験と公開試験は目前です！ Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

ベンチマークの「多肢選択質問」では、標準の分類精度が使用されます。空白の質問」では、完全一致 (EM) および F1 インジケーターが使用されます。

AI試験と公開試験は目前です！ Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

実験結果からわかります:

1. GPT-4 は、Gaokao-English で 93.8% の精度、SAT-MATH で 95% の精度など、すべてのタスク設定において類似製品よりも大幅に優れており、人間中心のタスクを処理する上で GPT-4 が優れた一般的な機能を備えていることを示しています。。

ChatGPT は、地理、生物学、化学、物理学、数学などの外部知識を必要とするタスクにおいて、Text-Davinci-003 よりも大幅に優れたパフォーマンスを発揮します。これは、ChatGPT がより強力な知識ベースを備えており、特定のドメインについての深い理解を必要とするタスクをより適切に処理できることを示しています。

一方、ChatGPT は、すべての評価設定と、純粋な理解を必要とし、英語や LSAT タスクなどの外部知識に大きく依存しないタスクにおいて、Text-Davinci- よりわずかに優れています。 .003、または同等の結果。この観察結果は、両方のモデルが、専門的なドメイン知識を必要とせずに、言語理解と論理的推論を中心としたタスクを処理できることを意味します。

3. これらのモデルの全体的なパフォーマンスは良好ですが、

すべての言語モデルは、MATH や LSAT-AR 、 GK- などの複雑な推論タスクではパフォーマンスが低くなります。物理学と GK-Math では、高度な推論と問題解決のスキルを必要とするタスクを処理する際のこれらのモデルの限界を強調しています。

複雑な推論問題を処理する際に観察された困難は、モデルの一般的な推論機能の向上を目的とした将来の研究開発の機会となります。

4. ゼロショット学習と比較すると、

少数ショット学習は通常、限定的なパフォーマンス向上しかもたらしません。これは、現在の大規模言語モデルのゼロショット学習が不十分であることを示しています。ショット学習機能は数ショット学習機能に近づいており、これは、数ショットのパフォーマンスがゼロショットよりもはるかに優れていたオリジナルの GPT-3 モデルと比べて大きな改善を示しています。

この開発の合理的な説明は、現在の言語モデルにおける人間による調整と命令の調整が強化されたことです。これらの改善により、モデルは事前にタスクをよりよく理解できるようになります。意味とコンテキスト、したがって、ショットがゼロの状況でも優れたパフォーマンスを発揮できるようになり、指導の有効性が証明されました。

以上がAI試験と公開試験は目前です！ Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7469

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Laravelの地理空間：インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件：MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか？データ移行または構造調整は必要ですか？ MySQLはこのような大きなデータ負荷に耐えることができますか？予備分析：キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合（ポート占有率をチェックして構成の変更）、許可の問題（ユーザー許可を実行するサービスを確認）、構成ファイルエラー（パラメーター設定のチェック）、データディレクトリの破損（テーブルスペースの復元）、INNODBテーブルスペースの問題（IBDATA1ファイルのチェック）、プラグインロード障害（エラーログのチェック）が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

mysqlはjsonを返すことができますか Apr 08, 2025 pm 03:09 PM

MySQLはJSONデータを返すことができます。 json_extract関数はフィールド値を抽出します。複雑なクエリについては、Where句を使用してJSONデータをフィルタリングすることを検討できますが、そのパフォーマンスへの影響に注意してください。 JSONに対するMySQLのサポートは絶えず増加しており、最新バージョンと機能に注意を払うことをお勧めします。

リモートシニアバックエンジニア（プラットフォーム）がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者：サークル場所：リモートオフィスジョブタイプ：フルタイム給与：$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

酸性特性を理解する：信頼できるデータベースの柱 Apr 08, 2025 pm 06:33 PM

データベース酸属性の詳細な説明酸属性は、データベーストランザクションの信頼性と一貫性を確保するための一連のルールです。データベースシステムがトランザクションを処理する方法を定義し、システムのクラッシュ、停電、または複数のユーザーの同時アクセスの場合でも、データの整合性と精度を確保します。酸属性の概要原子性：トランザクションは不可分な単位と見なされます。どの部分も失敗し、トランザクション全体がロールバックされ、データベースは変更を保持しません。たとえば、銀行の譲渡が1つのアカウントから控除されているが別のアカウントに増加しない場合、操作全体が取り消されます。 TRANSACTION; updateaccountssetbalance = balance-100wh

MySQLはダウンロード後にインストールできません Apr 08, 2025 am 11:24 AM

MySQLのインストール障害の主な理由は次のとおりです。1。許可の問題、管理者として実行するか、SUDOコマンドを使用する必要があります。 2。依存関係が欠落しており、関連する開発パッケージをインストールする必要があります。 3.ポート競合では、ポート3306を占めるプログラムを閉じるか、構成ファイルを変更する必要があります。 4.インストールパッケージが破損しているため、整合性をダウンロードして検証する必要があります。 5.環境変数は誤って構成されており、環境変数はオペレーティングシステムに従って正しく構成する必要があります。これらの問題を解決し、各ステップを慎重に確認して、MySQLを正常にインストールします。

MySQLの主な鍵はヌルにすることができます Apr 08, 2025 pm 03:03 PM

MySQLプライマリキーは、データベース内の各行を一意に識別するキー属性であるため、空にすることはできません。主キーが空になる可能性がある場合、レコードを一意に識別することはできません。これにより、データの混乱が発生します。一次キーとして自己挿入整数列またはUUIDを使用する場合、効率やスペース占有などの要因を考慮し、適切なソリューションを選択する必要があります。

See all articles

AI試験と公開試験は目前で​​す！ Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース

評価結果

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

AI試験と公開試験は目前です！ Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース