新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑
テスト問題が簡単すぎると、上位の生徒も下位の生徒も90点を獲得できてしまい、その差は広げられません...
Claude 3、Llama 3、さらにはGPT-5などのより強力なモデルのリリースにより業界は、より困難なモデル、より差別化されたベンチマーク テストを緊急に必要としています。
大型モデルアリーナの背後にある組織である LMSYS は、次世代ベンチマーク Arena-Hard を発表し、広く注目を集めました。
Llama 3 の 2 つの命令の微調整されたバージョンの強度については、最新のリファレンスも利用できます。
同様のスコアだった以前のMTベンチと比較すると、アリーナとハードの区別が22.6%から87.4%に増加しており、これは一目瞭然です。
アリーナ-ハードは、アリーナからのリアルタイムの人間データを使用して構築されており、人間の好みとの一致率は 89.1% にも達します。
SOTA に達する上記の 2 つの指標に加えて、追加の利点があります:
リアルタイムで更新されたテスト データには、人間が新たに考えた、トレーニング段階では AI が決して見たことのないプロンプト ワードが含まれており、潜在的なデータが軽減されます。 。
新しいモデルをリリースした後、人間のユーザーが投票するまで 1 週間ほど待つ必要はなくなり、25 ドルを費やすだけでテスト パイプラインをすぐに実行して結果を取得できます。
一部のネチズンは、テストには高校試験の代わりに実際のユーザープロンプトワードを使用することが非常に重要であるとコメントしました。
新しいベンチマークはどのように機能しますか?
簡単に言うと、大規模モデル領域での 200,000 のユーザー クエリから 500 の高品質なプロンプト ワードがテスト セットとして選択されます。
まず、選択プロセス中に多様性を確保します。つまり、テスト セットは現実世界のトピックを広範囲にカバーする必要があります。これを確実にするために、チームは BERTopic のトピック モデリング パイプラインを採用し、まず OpenAI の埋め込みモデル (text-embedding-3-small) を使用して各ヒントを変換し、UMAP を使用して次元を削減し、階層ベースのモデル アルゴリズムを使用してクラスタリングしました ( HDBSCAN) を使用してクラスターを識別し、最後に GPT-4-turbo を使用して集約します。
また、選択したプロンプトワードが高品質であることを確認します。これは、7 つの主要な指標によって測定されます:
- 分野の知識: プロンプトの単語は 1 つ以上の特定のフィールドをカバーしていますか?
- 複雑さ: プロンプトの単語には複数の推論、コンポーネント、または変数の層がありますか?
- 問題解決: プロンプトの単語により、AI は問題を積極的に解決する能力を直接実証できますか?
- 創造性: プロンプトの言葉には、問題解決においてある程度の創造性が含まれていますか?
- 技術的な正確さ: プロンプトの単語の応答には技術的な正確さが必要ですか?
- 実践的な応用: プロンプトの言葉は実践的な応用に関連していますか?
GPT-3.5-Turbo と GPT-4-Turbo を使用して、各チップに 0 から 7 までの注釈を付け、満たされる条件の数を判断します。次に、各クラスターはキューの平均スコアに基づいてスコア付けされます。
質の高い質問は通常、ゲーム開発や数学的証明などの難しいトピックやタスクに関連しています。
新しいベンチマークは正確ですか?
Arena-Hard には現在弱点があります。GPT-4 を審判として使用すると、独自の出力が優先されます。当局者も同様のヒントを提供した。
GPT-4 の最新の 2 つのバージョンのスコアが Claude 3 Opus よりもはるかに高いことがわかりますが、人間の投票スコアの差はそれほど明白ではありません。
実際、この点に関して、最新の研究では、最先端のモデルは独自の出力を好むことが実証されています。
また、研究チームは、微調整後、AI がテキストが自分自身で書かれたものであるかどうかを本質的に判断できること、そして自己認識能力が自己認識能力と直線的に関係していることも発見しました。好み。
それでは、得点にクロード 3 を使用すると、結果はどう変わりますか? LMSYS は関連する実験も行っています。
まず、クロードシリーズのスコアは確かに上がります。
しかし、驚くべきことに、Mixtral や Zero One Thousand Yi などのいくつかのオープン モデルを好み、さらに GPT-3.5 では大幅に高いスコアを獲得しています。
全体的に、Claude 3 を使用してスコア化された人間の結果との識別性と一貫性は GPT-4 ほど良くありません。
非常に多くのネチズンが、包括的なスコアリングのために複数の大規模なモデルを使用することを提案しました。
さらに、チームは新しいベンチマーク テストの有効性を検証するために、さらにアブレーション実験も実施しました。
例えば、プロンプトワードに「答えはできるだけ詳しく書いてください」と追加すると、平均出力長が長くなり、確かにスコアが向上します。
しかし、プロンプトの単語を「チャットが好き」に変更すると、平均出力長も増加しましたが、スコアの改善は明らかではありませんでした。
また、実験中にはたくさんの興味深い発見がありました。
例えば、GPT-4 は解答に誤りがあると厳しく減点されますが、Claude 3 はたとえ小さな誤りを認識しても寛大です。コードの質問については、Claude 3 は単純な構造で回答を提供する傾向があり、外部のコード ライブラリに依存せず、人間のプログラミング学習に役立ちますが、GPT-4-Turbo は教育に関係なく、最も実用的な回答を好みます。価値。
また、温度を0に設定してもGPT-4-Turboでは若干異なる判定が行われる場合があります。
階層視覚化の最初の 64 クラスターからも、大規模なモデル領域のユーザーからの質問の質と多様性が実際に高いことがわかります。
これにはあなたの貢献があるかもしれません。
アリーナ-ハード GitHub: https://github.com/lm-sys/arena-hard
アリーナ-ハード HuggingFace: https://huggingface.co/spaces/lmsys/arena-hard-browser大型モデル アリーナ : https://arena.lmsys.org
参考リンク:
[1]https://x.com/lmsysorg/status/1782179997622649330
[2]https://lmsys.org/blog/2024-04 - 19-アリーナ-ハード/以上が新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









H5プロジェクトを実行するには、次の手順が必要です。Webサーバー、node.js、開発ツールなどの必要なツールのインストール。開発環境の構築、プロジェクトフォルダーの作成、プロジェクトの初期化、コードの書き込み。開発サーバーを起動し、コマンドラインを使用してコマンドを実行します。ブラウザでプロジェクトをプレビューし、開発サーバーURLを入力します。プロジェクトの公開、コードの最適化、プロジェクトの展開、Webサーバーの構成のセットアップ。

GiteEpages静的Webサイトの展開が失敗しました:404エラーのトラブルシューティングと解像度Giteeを使用する

Beegoormフレームワークでは、モデルに関連付けられているデータベースを指定する方法は?多くのBEEGOプロジェクトでは、複数のデータベースを同時に操作する必要があります。 Beegoを使用する場合...

大企業または有名なオープンソースプロジェクトによって開発されたGOのどのライブラリが開発されていますか? GOでプログラミングするとき、開発者はしばしばいくつかの一般的なニーズに遭遇します...

redisstreamを使用してGo言語でメッセージキューを実装する問題は、GO言語とRedisを使用することです...

H5ページは、コードの脆弱性、ブラウザー互換性、パフォーマンスの最適化、セキュリティの更新、ユーザーエクスペリエンスの改善などの要因のため、継続的に維持する必要があります。効果的なメンテナンス方法には、完全なテストシステムの確立、バージョン制御ツールの使用、定期的にページのパフォーマンスの監視、ユーザーフィードバックの収集、メンテナンス計画の策定が含まれます。

SQL.Openを使用する場合、DSNがエラーを報告しないのはなぜですか? GO言語では、sql.open ...
