新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑-AI-php.cn

新しいベンチマークはどのように機能しますか?

Arena-Hard には現在弱点があります。GPT-4 を審判として使用すると、独自の出力が優先されます。当局者も同様のヒントを提供した。

ホームページ

テクノロジー周辺機器

新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑

PHPz

Apr 23, 2024 pm 12:13 PM

git gpt-5 大型モデル llama 3

テスト問題が簡単すぎると、上位の生徒も下位の生徒も90点を獲得できてしまい、その差は広げられません...

Claude 3、Llama 3、さらにはGPT-5などのより強力なモデルのリリースにより業界は、より困難なモデル、より差別化されたベンチマークテストを緊急に必要としています。

大型モデルアリーナの背後にある組織である LMSYS は、次世代ベンチマーク Arena-Hard を発表し、広く注目を集めました。

Llama 3 の 2 つの命令の微調整されたバージョンの強度については、最新のリファレンスも利用できます。

新测试基准发布，最强开源Llama 3尴尬了

同様のスコアだった以前のMTベンチと比較すると、アリーナとハードの区別が22.6%から87.4%に増加しており、これは一目瞭然です。

アリーナ-ハードは、アリーナからのリアルタイムの人間データを使用して構築されており、人間の好みとの一致率は 89.1% にも達します。

SOTA に達する上記の 2 つの指標に加えて、追加の利点があります:

リアルタイムで更新されたテストデータには、人間が新たに考えた、トレーニング段階では AI が決して見たことのないプロンプトワードが含まれており、潜在的なデータが軽減されます。。

新しいモデルをリリースした後、人間のユーザーが投票するまで 1 週間ほど待つ必要はなくなり、25 ドルを費やすだけでテストパイプラインをすぐに実行して結果を取得できます。

一部のネチズンは、テストには高校試験の代わりに実際のユーザープロンプトワードを使用することが非常に重要であるとコメントしました。

新测试基准发布，最强开源Llama 3尴尬了

新しいベンチマークはどのように機能しますか?

簡単に言うと、大規模モデル領域での 200,000 のユーザークエリから 500 の高品質なプロンプトワードがテストセットとして選択されます。

まず、選択プロセス中に多様性を確保します。つまり、テストセットは現実世界のトピックを広範囲にカバーする必要があります。これを確実にするために、チームは BERTopic のトピックモデリングパイプラインを採用し、まず OpenAI の埋め込みモデル (text-embedding-3-small) を使用して各ヒントを変換し、UMAP を使用して次元を削減し、階層ベースのモデルアルゴリズムを使用してクラスタリングしました ( HDBSCAN) を使用してクラスターを識別し、最後に GPT-4-turbo を使用して集約します。

新测试基准发布，最强开源Llama 3尴尬了また、選択したプロンプトワードが高品質であることを確認します。これは、7 つの主要な指標によって測定されます:

具体性: プロンプトワードは特定の出力を必要としますか?

分野の知識: プロンプトの単語は 1 つ以上の特定のフィールドをカバーしていますか?
複雑さ: プロンプトの単語には複数の推論、コンポーネント、または変数の層がありますか?
問題解決: プロンプトの単語により、AI は問題を積極的に解決する能力を直接実証できますか?
創造性: プロンプトの言葉には、問題解決においてある程度の創造性が含まれていますか?
技術的な正確さ: プロンプトの単語の応答には技術的な正確さが必要ですか?
実践的な応用: プロンプトの言葉は実践的な応用に関連していますか?

新测试基准发布，最强开源Llama 3尴尬了 GPT-3.5-Turbo と GPT-4-Turbo を使用して、各チップに 0 から 7 までの注釈を付け、満たされる条件の数を判断します。次に、各クラスターはキューの平均スコアに基づいてスコア付けされます。

質の高い質問は通常、ゲーム開発や数学的証明などの難しいトピックやタスクに関連しています。

新测试基准发布，最强开源Llama 3尴尬了新しいベンチマークは正確ですか?

Arena-Hard には現在弱点があります。GPT-4 を審判として使用すると、独自の出力が優先されます。当局者も同様のヒントを提供した。

GPT-4 の最新の 2 つのバージョンのスコアが Claude 3 Opus よりもはるかに高いことがわかりますが、人間の投票スコアの差はそれほど明白ではありません。

新测试基准发布，最强开源Llama 3尴尬了実際、この点に関して、最新の研究では、最先端のモデルは独自の出力を好むことが実証されています。

新测试基准发布，最强开源Llama 3尴尬了また、研究チームは、微調整後、AI がテキストが自分自身で書かれたものであるかどうかを本質的に判断できること、そして自己認識能力が自己認識能力と直線的に関係していることも発見しました。好み。

新测试基准发布，最强开源Llama 3尴尬了それでは、得点にクロード 3 を使用すると、結果はどう変わりますか? LMSYS は関連する実験も行っています。

まず、クロードシリーズのスコアは確かに上がります。

新测试基准发布，最强开源Llama 3尴尬了

しかし、驚くべきことに、Mixtral や Zero One Thousand Yi などのいくつかのオープンモデルを好み、さらに GPT-3.5 では大幅に高いスコアを獲得しています。

全体的に、Claude 3 を使用してスコア化された人間の結果との識別性と一貫性は GPT-4 ほど良くありません。

新测试基准发布，最强开源Llama 3尴尬了

非常に多くのネチズンが、包括的なスコアリングのために複数の大規模なモデルを使用することを提案しました。

新测试基准发布，最强开源Llama 3尴尬了

さらに、チームは新しいベンチマークテストの有効性を検証するために、さらにアブレーション実験も実施しました。

例えば、プロンプトワードに「答えはできるだけ詳しく書いてください」と追加すると、平均出力長が長くなり、確かにスコアが向上します。

しかし、プロンプトの単語を「チャットが好き」に変更すると、平均出力長も増加しましたが、スコアの改善は明らかではありませんでした。

新测试基准发布，最强开源Llama 3尴尬了

また、実験中にはたくさんの興味深い発見がありました。

例えば、GPT-4 は解答に誤りがあると厳しく減点されますが、Claude 3 はたとえ小さな誤りを認識しても寛大です。コードの質問については、Claude 3 は単純な構造で回答を提供する傾向があり、外部のコードライブラリに依存せず、人間のプログラミング学習に役立ちますが、GPT-4-Turbo は教育に関係なく、最も実用的な回答を好みます。価値。

また、温度を0に設定してもGPT-4-Turboでは若干異なる判定が行われる場合があります。

階層視覚化の最初の 64 クラスターからも、大規模なモデル領域のユーザーからの質問の質と多様性が実際に高いことがわかります。

新测试基准发布，最强开源Llama 3尴尬了これにはあなたの貢献があるかもしれません。

アリーナ-ハード GitHub: https://github.com/lm-sys/arena-hard

アリーナ-ハード HuggingFace: https://huggingface.co/spaces/lmsys/arena-hard-browser

大型モデルアリーナ : https://arena.lmsys.org

参考リンク：

[1]https://x.com/lmsysorg/status/1782179997622649330

[2]https://lmsys.org/blog/2024-04 - 19-アリーナ-ハード/

以上が新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7486

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

GOの浮動小数点番号操作に使用されるライブラリは何ですか？ Apr 02, 2025 pm 02:06 PM

GO言語の浮動小数点数操作に使用されるライブラリは、精度を確保する方法を紹介します...

H5プロジェクトの実行方法 Apr 06, 2025 pm 12:21 PM

H5プロジェクトを実行するには、次の手順が必要です。Webサーバー、node.js、開発ツールなどの必要なツールのインストール。開発環境の構築、プロジェクトフォルダーの作成、プロジェクトの初期化、コードの書き込み。開発サーバーを起動し、コマンドラインを使用してコマンドを実行します。ブラウザでプロジェクトをプレビューし、開発サーバーURLを入力します。プロジェクトの公開、コードの最適化、プロジェクトの展開、Webサーバーの構成のセットアップ。

Giteeページ静的なWebサイトの展開に失敗しました：単一のファイル404エラーをトラブルシューティングと解決する方法 Apr 04, 2025 pm 11:54 PM

GiteEpages静的Webサイトの展開が失敗しました：404エラーのトラブルシューティングと解像度Giteeを使用する

Beego ormのモデルに関連付けられているデータベースを指定する方法は？ Apr 02, 2025 pm 03:54 PM

Beegoormフレームワークでは、モデルに関連付けられているデータベースを指定する方法は？多くのBEEGOプロジェクトでは、複数のデータベースを同時に操作する必要があります。 Beegoを使用する場合...

GOのどのライブラリが大企業によって開発されていますか、それとも有名なオープンソースプロジェクトによって提供されていますか？ Apr 02, 2025 pm 04:12 PM

大企業または有名なオープンソースプロジェクトによって開発されたGOのどのライブラリが開発されていますか？ GOでプログラミングするとき、開発者はしばしばいくつかの一般的なニーズに遭遇します...

Redisストリームを使用してGO言語でメッセージキューを実装する場合、user_idタイプの変換の問題を解決する方法は？ Apr 02, 2025 pm 04:54 PM

redisstreamを使用してGo言語でメッセージキューを実装する問題は、GO言語とRedisを使用することです...

H5ページの生産には継続的なメンテナンスが必要ですか？ Apr 05, 2025 pm 11:27 PM

H5ページは、コードの脆弱性、ブラウザー互換性、パフォーマンスの最適化、セキュリティの更新、ユーザーエクスペリエンスの改善などの要因のため、継続的に維持する必要があります。効果的なメンテナンス方法には、完全なテストシステムの確立、バージョン制御ツールの使用、定期的にページのパフォーマンスの監視、ユーザーフィードバックの収集、メンテナンス計画の策定が含まれます。