大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクイン-AI-php.cn

90 近くのモデルが 750,000 ラウンドで競い合いました

誰でも参加できる大規模な模型テスト

△概略図、以前のバージョン

One More Thing

ホームページ

テクノロジー周辺機器

大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクイン

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 23, 2024 pm 03:28 PM

bootstrap バージョン gpt-4 配置 llama 3

Llama 3 に関して、新しいテスト結果があります -

大規模なモデル評価コミュニティ LMSYS は大規模なモデルのランキングリストを発表し、Llama 3 は 5 位にランクされ、英語カテゴリでは GPT-4 と同率 1 位になりました。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

他のベンチマークとは異なり、このリストは 1 対 1 の戦いのモデルに基づいており、ネットワーク全体の評価者が独自の提案とスコアを作成します。

最終的に、Llama 3 がリストの 5 位にランクされ、GPT-4 と Claude 3 Super Cup Opus の 3 つの異なるバージョンが続きました。

イギリスのシングルリストでは、ラマ 3 がクロードを追い抜き、GPT-4 と並びました。

Meta の主任科学者である LeCun はこの結果に非常に満足し、ツイートをリツイートして「いいね」を残しました。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

PyTorch の父である Soumith Chintala 氏も、このような結果は信じられないほど素晴らしく、Meta を誇りに思っていると興奮気味に述べました。

Llama 3の400Bバージョンはまだ出ていませんが、70Bパラメータだけで5位を獲得しました...
昨年3月にGPT-4がリリースされたとき、同じ性能のもの。
…
現在の AI の普及は本当に驚異的であり、このような成功を収めた Meta AI の同僚を非常に誇りに思っています。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

では、このリストは具体的にどのような結果を示しているのでしょうか?

90 近くのモデルが 750,000 ラウンドで競い合いました

最新のリストのリリースの時点で、LMSYS は 89 のモデルを含む 750,000 近くの大型モデルの単独戦闘結果を収集しました。

その中で、Llama 3 は 12,700 回参加し、GPT-4 には複数の異なるバージョンがあり、最も多く参加したのは 68,000 回です。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

下の写真は、いくつかの人気モデルの競技数と勝率を示しています。写真内の 2 つの指標はいずれもドロー数をカウントしません。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

リストに関しては、LMSYS は一般リストと複数のサブリストに分かれており、GPT-4-Turbo が初期の 1106 バージョンと同率で 1 位、Claude 3 Super Large Cup Opus にランクされています。

GPT-4 の別のバージョン (0125) が 2 位にランクされ、僅差で Llama 3 が続きます。

しかし、さらに興味深いのは、新しいバージョン 0125 のパフォーマンスが古いバージョン 1106 ほどではないことです。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

英語のシングルリストでは、Llama 3 の結果は 2 つの GPT-4 と直接並び、0125 バージョンをも上回りました。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

中国語能力ランキングの1位はClaude 3 OpusとGPT-4-1106が同率ですが、Llama 3は20位圏外にランクインしています。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

このリストでは、言語能力に加えて、長文テキストとコーディング能力についてもランキングが設定されており、Llama 3 も最高クラスにランクされています。

ところで、LMSYSの具体的な「ゲームルール」とは何なのでしょうか？

誰でも参加できる大規模な模型テスト

誰でも参加できる大規模な模型テストです。出題内容や評価基準は参加者自らが決定します。

具体的な「競争」プロセスは、バトルとサイド・バイ・サイドの2つのモードに分かれています。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

戦闘モードでは、テストインターフェイスに質問を入力した後、システムはライブラリ内の2つのモデルをランダムに呼び出します。テスターはシステムが誰を選択したかを知らず、「モデル」のみが選択されます。インターフェースA」と「モデルB」に表示されます。

モデルが答えを出力した後、評価者はどちらが優れているか、または同点であるかを選択する必要があります。もちろん、モデルのパフォーマンスが期待を満たさない場合は、対応するオプションがあります。

選択が行われた後にのみ、モデルのアイデンティティが明らかになります。

サイド・バイ・サイドでは、ユーザーがPKする指定されたモデルを選択します。残りのテストプロセスはバトルモードと同じです。

ただし、バトルの匿名モードでの投票結果のみがカウントされます。会話中にモデルが注意を払わない場合、あなたの身元を暴露すると結果が無効になる可能性があります。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

各モデルの他のモデルに対する勝率に応じて、次のようなイメージを描くことができます:

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

△概略図、以前のバージョン

そして、最終的なランキングはWinを使用していますレートデータは Elo 評価システムを通じてスコアに変換されます。

Elo レーティングシステムは、アメリカの物理学教授 Arpad Elo によって設計された、プレイヤーの相対的なスキルレベルを計算する方法です。

特にLMSYSでは、初期条件で全機種のレーティング(R)を1000とし、このような計算式に基づいて期待勝率(E)を計算します。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

テストが進むにつれて、スコアは実際のスコア (S) に応じて修正されます。S には、勝ち、負けの 3 つの状況に対応する 1、0、0.5 の 3 つの値があります。と描画をそれぞれ行います。

補正アルゴリズムは次の式に示されています。K は係数であり、実際の状況に応じてテスターが調整する必要があります。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

最後に、すべての有効なデータが計算に含まれた後、モデルの Elo スコアが取得されます。

しかし、実際の運用中に、LMSYSチームはこのアルゴリズムの安定性が不十分であることに気づき、統計的手法を使用して修正しました。

彼らはブートストラップ法を使用してサンプリングを繰り返し、より安定した結果を得て、信頼区間を推定しました。

最終的に改訂された Elo スコアが、リストのランキングの基礎になりました。

One More Thing

Llama 3 はすでに大規模モデル推論プラットフォーム Groq (Musk の Grok ではありません) 上で実行できます。

このプラットフォームの最大のハイライトはその「速度」です。以前は、Mixtral モデルを使用して 1 秒あたり 500 トークン近い速度を達成していました。

Llama 3 の実行も非常に高速です。実際のテストによると、70B バージョンは 1 秒あたり約 300 トークンを実行でき、8B バージョンは 800 近くです。

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五写真

参考リンク：
[1]https://lmsys.org/blog/2023-05-03-arena/
[2]https://chat.lmsys.org/?leaderboard
[3]https://twitter.com/lmsysorg/status/1782483699449332144

以上が大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクインの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7492

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

ブートストラップ検索バーを取得する方法 Apr 07, 2025 pm 03:33 PM

ブートストラップを使用して検索バーの値を取得する方法：検索バーのIDまたは名前を決定します。 JavaScriptを使用してDOM要素を取得します。要素の値を取得します。必要なアクションを実行します。

ブートストラップの垂直センタリングを行う方法 Apr 07, 2025 pm 03:21 PM

ブートストラップを使用して垂直センタリングを実装します。FlexBoxメソッド：D-Flex、Justify-Content-Center、Align-Items-Centerクラスを使用して、FlexBoxコンテナに要素を配置します。 ALIGN-ITEMS-CENTERクラス方法：FlexBoxをサポートしていないブラウザの場合、親要素の高さが定義されている場合、Align-Items-Centerクラスを使用します。

ブートストラップに写真を挿入する方法 Apr 07, 2025 pm 03:30 PM

ブートストラップに画像を挿入する方法はいくつかあります。HTMLIMGタグを使用して、画像を直接挿入します。ブートストラップ画像コンポーネントを使用すると、レスポンシブ画像とより多くのスタイルを提供できます。画像サイズを設定し、IMG-Fluidクラスを使用して画像を適応可能にします。 IMGボーダークラスを使用して、境界線を設定します。丸い角を設定し、IMGラウンドクラスを使用します。影を設定し、影のクラスを使用します。 CSSスタイルを使用して、画像をサイズ変更して配置します。背景画像を使用して、背景イメージCSSプロパティを使用します。

ブートストラップのフレームワークをセットアップする方法 Apr 07, 2025 pm 03:27 PM

Bootstrapフレームワークをセットアップするには、次の手順に従う必要があります。1。CDNを介してブートストラップファイルを参照してください。 2。独自のサーバーでファイルをダウンロードしてホストします。 3。HTMLにブートストラップファイルを含めます。 4.必要に応じてSASS/LESSをコンパイルします。 5。カスタムファイルをインポートします（オプション）。セットアップが完了したら、Bootstrapのグリッドシステム、コンポーネント、スタイルを使用して、レスポンシブWebサイトとアプリケーションを作成できます。

ブートストラップボタンの使用方法 Apr 07, 2025 pm 03:09 PM

ブートストラップボタンの使用方法は？ブートストラップCSSを導入してボタン要素を作成し、ブートストラップボタンクラスを追加してボタンテキストを追加します

ブートストラップにスプリットラインを書く方法 Apr 07, 2025 pm 03:12 PM

ブートストラップスプリットラインを作成するには2つの方法があります。タグを使用して、水平方向のスプリットラインを作成します。 CSS Borderプロパティを使用して、カスタムスタイルのスプリットラインを作成します。

ブートストラップのサイズを変更する方法 Apr 07, 2025 pm 03:18 PM

Bootstrapの要素のサイズを調整するには、次のものを含むDimensionクラスを使用できます。

ブートストラップの日付を表示する方法 Apr 07, 2025 pm 03:03 PM

回答：ブートストラップの日付ピッカーコンポーネントを使用して、ページで日付を表示できます。手順：ブートストラップフレームワークを紹介します。 HTMLで日付セレクター入力ボックスを作成します。ブートストラップは、セレクターにスタイルを自動的に追加します。 JavaScriptを使用して、選択した日付を取得します。

See all articles

大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクイン

90 近くのモデルが 750,000 ラウンドで競い合いました

誰でも参加できる大規模な模型テスト

△概略図、以前のバージョン

One More Thing

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック