大規模モデルのスコアリングのベンチマークは信頼できるものですか? Anthropic が次の大きな評価に向けて登場
ラージ モデル (LLM) が普及している現在の時代では、AI システムの評価が重要な部分になってきています。評価プロセス中にどのような困難に遭遇しますか? Anthropic の記事でその答えが明らかになりました。私たち。 。
現段階では、人工知能 (AI) が社会に与える影響に関する議論のほとんどは、信頼性、公平性、悪用の可能性など、AI システムの特定の属性に起因していると考えられます。 . .しかし、現在の問題は、多くの研究者が、堅牢で信頼性の高いモデル評価を構築することがいかに難しいかを十分に理解していないことです。現在の既存の評価キットの多くは、さまざまな面で性能が制限されています。
AI スタートアップの Anthropic は最近、公式 Web サイトに「AI システムの評価における課題」という記事を投稿しました。記事では、AIシステムをより深く理解するためにAIシステムの評価を構築するのに長い時間を費やしたと書いています。
記事のアドレス: https://www.anthropic.com/index/evaluating-ai-systems
この記事では主に次の側面について説明します :
複数選択評価;
BIG-bench や HELM などのサードパーティ評価フレームワークを使用します;
-
モデルが有益か有害かをスタッフに測定させます。
ドメインの専門家に関連する脅威のレッド チーム分析 (レッド チーム) を実施させます。
-
生成 AI を使用して評価方法を開発します;
非営利団体と協力して、モデルに害がないかをレビューします。
多肢選択評価の課題
多肢選択評価は簡単そうに見えるかもしれませんが、実際はそうではありません。この記事では、MMLU (マルチタスク言語理解の測定) および BBQ (QA のバイアス ベンチマーク) ベンチマークに関するモデルの課題について説明します。
MMLU データ セット
MMLU は、数学、歴史、法律などをカバーする 57 個の多肢選択式の質問と回答のタスクを含む英語評価データ セットです。現在主流の LLM 評価データ セットです。精度が高いほど、モデルの能力は強力になります。ただし、この記事では、MMLU の使用には 4 つの課題があることがわかりました:
1. MMLU は広く使用されているため、この状況は避けられず、トレーニング プロセス中にモデルに MMLU データを組み込むことが容易になります。学生がテストを受ける前に問題を見るのと同じで、不正行為です。
2. 選択肢を (A) から (1) に変更したり、選択肢と回答の間に余分なスペースを追加したりするなど、単純な書式変更には注意してください。これにより、推定精度が約 5% float になる可能性があります。
3. 一部の開発者は、少数ショット学習や思考連鎖推論など、MMLU スコアを向上させる方法をターゲットにしています。したがって、研究室間で MMLU スコアを比較する場合には細心の注意を払う必要があります。
4.MMLU は慎重に校正されていない可能性があります。一部の研究者は、MMLU でラベルのエラーや答えられない質問の例を発見しました。
上記の問題があるため、この簡易かつ標準化された評価を行う際には、事前に判断し、考える必要があります。この記事では、MMLU の使用時に遭遇する課題が他の同様の多肢選択評価にも一般的に当てはまることを示します。
BBQ
多肢選択評価では、一部の AI の危険性を測定することもできます。具体的には、これらの危険を独自のモデルであるクロードで測定するために、Anthropic の研究者らは、母集団におけるモデルの偏りを評価するために使用される一般的なベンチマークである BBQ ベンチマークを使用しました。このベンチマークをいくつかの同様の評価と比較した結果、この記事では、BBQ が社会的偏見の適切な尺度となると確信しています。この作業には数か月かかりました。
この記事は、BBQの実施が予想以上に難しいことを示しています。 1 つ目は、BBQ の動作するオープンソース実装が見つからなかったため、Anthropic の優秀なエンジニアが評価を実行してテストするのに 1 週間かかりました。精度の観点から評価される MMLU とは異なり、BBQ のバイアス スコアは、定義、計算、解釈するためのニュアンスと経験を必要とします。
BBQ バイアス スコアの範囲は -1 ~ 1 で、1 は重大なステレオタイプ バイアスを示し、0 はバイアスがないことを示し、-1 は重大な反ステレオタイプ バイアスを示します。 BBQ を実装した後、この論文では一部のモデルのバイアス スコアが 0 であることがわかりました。この結果も研究者らを楽観視させており、偏ったモデルの出力を減らすことに進歩があったことを示しています。
サードパーティ評価フレームワーク
最近、サードパーティが評価スイートを積極的に開発しています。これまでのところ、Anthropic はこれらのプロジェクトのうち、BIG-bench とスタンフォード大学の HELM (言語モデルの全体的評価) の 2 つに参加しています。第三者による評価は有用であるように見えますが、どちらのプロジェクトも新たな課題に直面しています。
BIG-bench
BIG-bench は、450 人を超える研究者が共同で完了した 204 の評価で構成されており、科学から社会推論まで幅広いトピックをカバーしています。 Anthropic 氏は、このベンチマークを使用する際にいくつかの課題に直面したと述べています。BIG-bench をインストールするために、多くの時間を費やしました。 BIG-bench は MMLU ほどプラグアンドプレイではありません。BBQ を使用するよりも実装に手間がかかります。
BIG-bench は効果的に拡張できず、204 件の評価すべてを完了するのは非常に困難です。したがって、使用されているインフラストラクチャで適切に動作するように書き直す必要があり、これは膨大な作業負荷となります。
さらに、実装プロセス中に、この記事では評価にいくつかのバグがあり、使用するのに非常に不便であることが判明したため、Anthropic 研究者はこの実験の後、それを放棄しました。
HELM: 上から下まで一連の評価を計画する
BIG-bench は「ボトムアップ」作業であり、誰でも任意のタスクを送信でき、その後に専門の主催者チームによる限定的なレビュー。 HELM は「トップダウン」アプローチを採用しており、専門家がモデルの評価に使用するタスクを決定します。
具体的には、HELM は、精度、堅牢性、公平性などの標準的な指標を使用して、推論シナリオや虚偽の情報を含むシナリオなどの複数のシナリオでモデルを評価します。 Anthropic は、HELM 開発者にモデルでベンチマークを実行するための API アクセスを提供します。
BIG ベンチと比較して、HELM には 2 つの利点があります。1) 大規模なエンジニアリング作業を必要としない、2) 専門家に依存して特定の高品質の評価を選択して解釈できる。
ただし、HELM にはいくつかの課題もあります。他のモデルの評価に機能する方法が、Anthropic のモデルにも機能するとは限りませんし、その逆も同様です。たとえば、Anthropic の Claude ファミリーのモデルは、Human/Assistant 形式と呼ばれる特定のテキスト形式に従うようにトレーニングされています。 Anthropic はモデルを評価する際に、内部的にこの特定の形式に従います。この形式に従わない場合、クロードは時々異常な回答をし、標準の評価指標の結果の信頼性が低くなります。
さらに、HELM は完了までに長い時間がかかり、新しいモデルの評価には数か月かかる場合があり、外部関係者との調整とコミュニケーションが必要になります。
人工知能システムは、人々とのオープンで動的な対話を目的として設計されています。では、実際のアプリケーションに近いモデルを評価するにはどうすればよいでしょうか?
A/B テスト用のクラウドソーサー
現在、この分野は主に (ただし独占的ではありません) 1 つの基本的な人間による評価、つまりクラウドソーシング プラットフォームの A/B テストに依存しています。このモデルでは、人々が 2 つのモデルと率直な対話を行い、その応答がモデル A または B のどちらにより有益であるか無害であるかを選択し、有用性または無害性に従ってモデルをランク付けします。この評価方法の利点は、現実の環境に対応し、さまざまなモデルをランク付けできることです。
ただし、この評価方法にはいくつかの制限があり、実験には費用と時間がかかります。
まず、このアプローチでは、サードパーティのクラウドソーシング プラットフォームと提携して料金を支払い、モデルのカスタム Web インターフェイスを構築し、A/B テスター向けの詳細な手順を設計し、結果のデータを分析して保存する必要があります。クラウドソーシング業者を雇用することで生じる倫理的課題に対処します。
無害なテストの場合、実験には人々が有害な出力にさらされるリスクも伴います。人間による評価の結果は、人間の評価者の創造性、モチベーション、テスト対象のシステムの潜在的な欠陥を特定する能力のレベルなど、人間の評価者の特性によっても大きく異なる場合があります。
さらに、有用性と無害性の間には固有の緊張関係があります。システムは、「申し訳ありませんが、お手伝いできません」などの役に立たない応答を提供することで、被害を軽減することができます。
有用なものと無害なものの間の適切なバランスは何でしょうか?モデルが有用であり、十分に無害であることを示す指標値は何ですか?多くの疑問点については、その分野の研究者が答えを見つけるためにさらに多くの作業を行う必要があります。
詳細については、元の記事を参照してください。
元のリンク: https://www.anthropic.com/index/evaluating-ai-systems
以上が大規模モデルのスコアリングのベンチマークは信頼できるものですか? Anthropic が次の大きな評価に向けて登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

人工知能は想像を超えるスピードで発展しています。 GPT-4 がマルチモーダル技術を一般に公開して以来、マルチモーダル大型モデルは急速な開発段階に入り、純粋なモデルの研究開発から垂直分野での探査と応用へと徐々に移行し、あらゆる分野に深く統合されています。インターフェイス インタラクションの分野では、Google や Apple などの国際的なテクノロジー大手が、携帯電話 AI 革命を前進させる唯一の方法とみなされている大規模なマルチモーダル UI モデルの研究開発に投資してきました。このような状況の中で、中国初の大規模UIモデルが誕生しました。 8月17日、国際エクスペリエンスデザインカンファレンス「IXDC2024」において、AI時代のデザインツールであるMotiffは、独自開発したUIマルチモーダルモデル「Motiff Model」を発表した。世界初のUIデザインツールです
