Claude 3 のアリーナ ランキングがついに登場:
わずか 3 日間で 20,000 票が投じられ、ランキングのトラフィックは前例のないレベルに達しました。
最終的に、Claude 3 の最強の「ビッグ カップ」モデルである Opus が 1233 をスコアし、GPT-4-Turbo と競合する最初のプレーヤーになりました。
「ミディアム カップ」ソネットもかなり優れており、GPT-4 の 2 つの古いバージョンと同等です。
写真
しかし、一般的には GPT-4 シリーズが優位です。
クロード3の性能はプロモーションとは若干異なります。ネチズンが要約したように:
GPT-4 は依然として大型モデルの王様です!
ただし、無料の「ミディアム カップ」Claude 3 (Sonnet) の方が価格に見合った価値があります。
写真
クロード登場時の正式プロモーション3 がリリースされましたが、GPT-4 を超える包括的なものでしたが、GPT-4 のどのバージョンであるかについては言及されていません。
写真
アリーナ リーダーボード (LMSYS チャットボット アリーナ リーダーボード) の最新アップデートは、それを知るのに役立ちます。
詳細を見てみましょう。
1 位は、OpenAI が昨年 11 月に発表した GPT-4 Turbo で、
GPT-4-1106-preview です。
より強力で安価で、128k のコンテキストがあり、トレーニング データは 2021 年 9 月から 2023 年 4 月まで更新されています。
これと同率で 1 位になったのは、今年 1 月にリリースされた GPT-4 Turbo の最新バージョン:
GPT-4-0125-preview です。
そのトレーニング データはさらに広範囲にわたり、2023 年 12 月まで続きます。
両方とも 1251 のスコアを達成しました。
次にクロード 3 が登場します (トレーニング データは 2023 年 8 月に終了します)。
その最強バージョンである Opus のスコアは 1233 で、GPT-4 Turbo より 18 ポイント低くなりました。
写真
この差は比較するとそれほど大きくありません。結局のところ、さらに下を見てください:
GPT よりも優れています- 4 2 つのバージョン (0314、0613) は、それぞれ 48 ポイントと 72 ポイント高くなっています。
中程度のパフォーマンスの Claude 3 Sonnet に関しては、2 つの GPT-4 バージョンの間で 6 位にランクされています。
ただし、0314 バージョンよりも 5 ポイント低いだけであり、優れた性能を備えています。一気に超える可能性も。。
写真
つまり、一般的に、公式広報の内容に間違いはありません。あらゆる面で旧バージョンの GPT-4 を上回っています。ターボはまだ少し遠いですが、それほど遠くありません。
——このリストの評価メカニズムから判断すると、その結果は業界で十分に認められています。
「Vicuna」の著者チームによって始められました。
しかし、治安判事は「小さなアルパカ」ではなく、ましてや GPT-4 ではなく、人間の好みに基づいています。
詳細については、2 人の匿名モデルにランダムに質問し、それぞれの回答を評価して、より良い方に投票します。
写真
1回の投票で投票できない場合は、質問を続けることもできます。モデルがチャット中に誤って身元を明らかにした場合、投票は無効になります。
特に、公平性を確保するためにスコアリング ルールには Elo メカニズムが採用されています (Honor of Kings をプレイする友人は皆、このメカニズムに精通しています)。
例: 特定のモデルが負けた場合、そのモデルが弱いために必ずしもスコアが低いとは限りません。これは予想通りです。
現時点では、このリストは非常に人気があると言えます。世界中から 73 人のモデルがこのチャレンジに参加し、ネチズンから合計 37 万票を受け取りました。
Claude 3 に加えて、好成績を収めた他の選手を見てみましょう。
最初に言及するのは、GPT-4Turbo と Claude 3 に次ぐ 4 位にランクされている Gemini Pro ベースの Bard です。
写真
ちょっと意外とも言えます。
ネチズンは冗談を言いました:
Googleはランキングに「穴」を開けました。
そして、慌てて JeffDean と DeepMind の担当者に「もっと頑張れよ (Wangchai)」と返信しました。
写真
次にお話したいのは、Ali Tongyi Qianwen (バージョン 1.5、先月リリース) についてです。
今回のランキングではトップ10に食い込んで9位タイとなり、国内勢では最高の成績を収めた。
写真
他の国内プレーヤーに加えて、Claude 2、Gemini Pro、GPT-3.5 などが残されています。
完全なリスト: https://www.php.cn/link/e39505ef839c38f61139ae78da3f7615
参考リンク: https://www.php.cn/link/ 30637ce29549ac951061fd211d43c3b0
以上がGPT-4の王冠がなくなってしまいました!クロード3アリーナ人間投票結果公開:3位のみの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。