CMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。

PHPz
リリース: 2023-12-21 08:13:38
転載
841 人が閲覧しました

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Google Gemini の強みは何ですか?カーネギーメロン大学は、専門的かつ客観的なサードパーティによる比較を実施しました。

公平性を確保するために、#すべてのモデルは同じプロンプトと生成パラメータを使用し、再現可能なコードと完全な透過的な結果を提供します

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

は、

Google の公式カンファレンス のように、5 ショットの比較に CoT@32 を使用しません。

結果を 1 文にまとめると:

Gemini Pro バージョンは GPT-3.5 Turbo に近いもののわずかに劣ります 、GPT-4 はまだはるかに先を行っています。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

詳細な分析では、次のような双子座のいくつかの奇妙な特徴も見つかりました。多肢選択問題...

多くの研究者は、Gemini はリリース後わずか数日で非常に詳細なテストを受けたと述べており、これは非常に注目に値する成果です

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

6 つの主要タスクの詳細テスト

このテストでは、6 つの異なるタスクを具体的に比較し、各タスクに対応するデータ セットを選択しますGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

質問回答: MMLU

推論: BIG-Bench Hard

    数学: GSM8k、SVAMP、ASDIV、MAWPS
  • コード: HumanEval、ODEX
  • 翻訳: FLORES
  • インターネットサーフィン: WebArena
  • トリビア: D
  • を選択するのが好き 結果によると、このタイプの思考連鎖プロンプトを使用すると、タスクは必ずしも効果を向上させるわけではありません

MMLU データセットでは、すべての質問は多肢選択式の質問です。結果をさらに分析した結果、奇妙な現象が発見されました: Gemini はオプション D を好みます。4 つのオプション間の GPT シリーズの分布はよりバランスが取れています。チームは、これが Gemini

が原因で発生した可能性があることを示唆しました。多肢選択問題に対する多くの指示を微調整しないことによって。 Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

さらに、Gemini のセキュリティ フィルタリングは非常に厳格です。倫理的な質問に関しては、質問の 85% しか答えられません。そして、人間のセクシュアリティに関する質問に関しては、質問の 28% しか答えられませんでした。

Gemini Pro は、セキュリティ研究と高校のミクロ経済学で GPT を上回りました (3.5)。ギャップは大きくなく、チームは特別なものは見つからなかったと述べています

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

理由付け: 長い質問は苦手です

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

GPT シリーズは、より長く複雑な問題を処理するときにパフォーマンスが向上します。それに比べて、Gemini Pro のパフォーマンスは低くなります。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复特に長い問題では、GPT-4 Turbo のパフォーマンスはほとんどありません。パフォーマンスは低下します。複雑な問題を理解する優れた能力を持っているということです。この種の問題には、人々がアイテムを交換することが含まれており、最終的には AI が各人がどのアイテムを所有しているかを判断する必要があります。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

ジェミニが得意とするタスクには、世界のスポーツ知識の理解、記号スタックの操作、単語のアルファベット順の並べ替え、表の解析などがあります。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

##数学:複雑なタスクでの優位性

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

質問自体が長すぎるため、Gemini Pro と GPT-3.5 のパフォーマンスが同時に低下します。GPT-4 のみが、一貫したレベル

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

思考連鎖の長さが最長に達すると、Gemini は GPT-3.5 を超えます

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复## コード: matplotlib が得意です

コードに関する質問の場合、Gemini は参照回答が長い質問ではあまりパフォーマンスが良くありません

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复 GPT シリーズはほとんどのタイプで強力ですが、 matplotlib のパフォーマンスが低い まったく良くない

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复#翻訳: 応答がある限り、品質は高いです

翻訳タスクでは、Gemini は拒否しました12種類の質問に答えますが、翻訳品質が優れている限り、全体的なパフォーマンスはGPT-4を超えます

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复Geminiが翻訳を拒否する言語は主にラテン語ですおよびアラビア語

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复ネットワーク ナビゲーション: クロスサイト サーフィンが得意です

WebArena は、電子商取引、ソーシャル フォーラム、GitLab コラボレーションなど、AI 用のインターネット環境をシミュレートします。開発、コンテンツ管理システム、オンライン マップ。 AI は、この環境で情報を見つけたり、複数のサイト間でタスクを完了したりする必要があります。

Gemini は、GPT-3.5 Turbo よりも全体的にパフォーマンスが劣りますが、複数のサイト間でのタスクではわずかに優れたパフォーマンスを示します。

#ネチズン: しかし、それは無料ですGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

最終的に、CMU 准教授のグラハム ニュービッグ氏は、この研究にはいくつかの限界があることを認めました

API ベースのモデルの動作はいつでも変更される可能性があります。

    試行されたプロンプトの数は限られており、異なるモデルに適用されるプロンプトの言葉は異なる場合があります。
  • テストセットはリークです

Googleの大規模モデル推論チームの責任者であるZhou Dengyong氏は、ジェミニの温度を0に設定すると5〜10パーセント上昇する可能性があると指摘しましたヘルプGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

このテストでは、Gemini および GPT シリーズに加えて、最近入手したオープン ソース MoE モデル MixtralGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

ただし、強化学習の専門家である Noam Brown 氏は、Mixtral は公式実装ではなくサードパーティ API を使用しているため、Mixtral の結果は無視できると考えています。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Mistral AI の創設者は、より良い結果をもたらすと信じて、チームに正式バージョンへのアクセスを提供しました

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro は GPT ほど優れていませんが-3.5、その利点は、1 分あたり 60 呼び出しを超えない限り無料で使用できることです。

したがって、多くの個人開発者がキャンプを変更しました。 ##現在、Gemini が最も高い Ultra バージョンはまだリリースされていませんが、CMU チームはそれまでにこの研究を続ける予定ですが、Gemini Ultra は GPT-4 のレベルに到達できると思いますか?

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复この記事は論文を詳しく紹介しています: https://arxiv.org/abs/2312.11444

参考リンク:

[1]https://twitter.com/gneubig/status/1737108977954251216。

以上がCMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート