GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

WBOY
リリース: 2024-02-01 17:39:54
転載
701 人が閲覧しました

「大規模モデル予選」権威リスト Chatbot Arena が更新されました:

Google Bard が GPT-4 を上回り、GPT-4 Turbo に次いで 2 位にランクされました。

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

しかし、これに対して多くのネチズンは「不満」と「不公平」を表明した。

Google AI の責任者である Jeff Dean が、大型モデル Gemini Pro スケールの新しいバージョンが搭載されているため、Bard のパフォーマンスが大幅に向上したことを明らかにしたことが判明しました。

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

これは、「ランク マッチ」でプレイする吟遊詩人にはネットワーク機能があることも意味します。

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

ネチズンの疑問はこの点を中心に展開しています:

オンラインとオフラインの大規模モデルを同じランキング リストに混在させるのは非常に不公平です。誤解を招きやすい。

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

Hugging Face の「最高アルパカ責任者」オマール サンセビエロ氏も次のように述べています:

この場合...私も提出できます検索機能を備えた lmsys Mixtral に?

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

さまざまな疑問に直面して、Imsys は公式に次のように回答しました:

  • アリーナのランキングはリアルタイムです。ご質問がある場合は、 、アリーナでモデルを直接比較して投票できます。
  • 投票データはオープンで透明性があり、ユーザー プロンプトの多様性と投票の質に関する研究と、対応するデータ セットが間もなくリリースされます。

ネチズンが最も懸念している問題として、Bard に抜かれた GPT-4 は非ネットワーク版であるが、Imsys は「リアルタイムデータへのアクセスによりユーザーエクスペリエンスが向上すれば、ランキングに反映されるだろう」と述べたそれ。"

そして、@OpenAI と Bing、そして Microsoft 幹部の Mikhail Parakhin に直接、GPT-4 オンライン バージョンまたは Bing Copilot をアリーナに追加する意欲を表明しました。

最新のニュースは、OpenAI の最新モデル gpt-4-0125-preview がアリーナに登場し、ユーザーの投票参加を待っているということです。

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

Bard はどのようにして GPT-4 を超えたのでしょうか?

Chatbot Arena は、カリフォルニア大学バークレー校の研究者が率いる Imsys (Large Model Systems Organization) 組織によって作成された、大規模モデルの信頼できるリストです。

このランキングは匿名の 1V1 バトル投票ルールを使用し、Elo 評価システムに基づいてランク付けされています。

具体的には、投票ページは次のとおりです。モデル A とモデル B の 2 つのモデルはどちらも匿名です。ユーザーは複数の質問をした後、モデルの回答を評価します。合計 4 つの選択肢があります。A が優れています。 B の方が優れています。、A と B は同等に優れており、A と B は両方とも悪いです。

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

なお、質疑応答の過程でモデルの身元が漏洩した場合、投票は無効となりますのでご了承ください。

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

現在のリストによると、この分野には 56 個の大規模なモデルがあります:

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

以前は GPT-4 に依存していました。しかし、Bard の新しいバージョンがリリースされた後、GPT-4 の 2 つのバージョンを直接上回り、最初の GPT-4 Turbo とわずか 34 ポイントの差で 2 位に急上昇しました:

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

さらに詳しくは、引き分けのないすべてのモデル A 対 B の対戦において、モデル A が勝つ割合は次のとおりです:

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

モデルの組み合わせごとに決闘数もあります (引き分けなし):

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

さらに、Chatbot Arena リーダーボードは、ブートストラップを使用して Elo スコア推定値を 1,000 回ランダムにサンプリングし、信頼区間などを評価します。

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

他のすべてのモデルと比較した 1 つのモデルの平均勝率は次のとおりです:

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

ただし、注目すべき点は、アリーナランキング ランキングはリアルタイムであり、Bard は現在 2 位ですが、総投票数は 3,000 を超えています。

これに対し、GPT-4 Turboの得票数は3万票に達しており、上回った2バージョンの得票数もBardの数倍となっている。

GPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入

GPT-4 の最新バージョンが市場に投入されたので (ランキング リストでは更新されていませんが)、その後の結果を待つ必要があります~

参考リンク: https://twitter.com/lmsysorg/status/1752035632489300239。

以上がGPT-4は受け入れを拒否し、Bardに追い抜かれた:最新モデルが市場に参入の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!