Google Gemini の強みは何ですか?カーネギーメロン大学は、専門的かつ客観的なサードパーティによる比較を実施しました。
公平性を確保するために、#すべてのモデルは同じプロンプトと生成パラメータを使用し、再現可能なコードと完全な透過的な結果を提供します。
は、Google の公式カンファレンス のように、5 ショットの比較に CoT@32 を使用しません。
結果を 1 文にまとめると:Gemini Pro バージョンは GPT-3.5 Turbo に近いもののわずかに劣ります 、GPT-4 はまだはるかに先を行っています。
詳細な分析では、次のような双子座のいくつかの奇妙な特徴も見つかりました。多肢選択問題...多くの研究者は、Gemini はリリース後わずか数日で非常に詳細なテストを受けたと述べており、これは非常に注目に値する成果です
6 つの主要タスクの詳細テスト
このテストでは、6 つの異なるタスクを具体的に比較し、各タスクに対応するデータ セットを選択します
推論: BIG-Bench Hard
MMLU データセットでは、すべての質問は多肢選択式の質問です。結果をさらに分析した結果、奇妙な現象が発見されました: Gemini はオプション D を好みます。4 つのオプション間の GPT シリーズの分布はよりバランスが取れています。チームは、これが Gemini
が原因で発生した可能性があることを示唆しました。多肢選択問題に対する多くの指示を微調整しないことによって。
さらに、Gemini のセキュリティ フィルタリングは非常に厳格です。倫理的な質問に関しては、質問の 85% しか答えられません。そして、人間のセクシュアリティに関する質問に関しては、質問の 28% しか答えられませんでした。
Gemini Pro は、セキュリティ研究と高校のミクロ経済学で GPT を上回りました (3.5)。ギャップは大きくなく、チームは特別なものは見つからなかったと述べています 理由付け: 長い質問は苦手ですGPT シリーズは、より長く複雑な問題を処理するときにパフォーマンスが向上します。それに比べて、Gemini Pro のパフォーマンスは低くなります。
特に長い問題では、GPT-4 Turbo のパフォーマンスはほとんどありません。パフォーマンスは低下します。複雑な問題を理解する優れた能力を持っているということです。この種の問題には、人々がアイテムを交換することが含まれており、最終的には AI が各人がどのアイテムを所有しているかを判断する必要があります。
ジェミニが得意とするタスクには、世界のスポーツ知識の理解、記号スタックの操作、単語のアルファベット順の並べ替え、表の解析などがあります。
##数学:複雑なタスクでの優位性 質問自体が長すぎるため、Gemini Pro と GPT-3.5 のパフォーマンスが同時に低下します。GPT-4 のみが、一貫したレベル 思考連鎖の長さが最長に達すると、Gemini は GPT-3.5 を超えます## コード: matplotlib が得意です
GPT シリーズはほとんどのタイプで強力ですが、 matplotlib のパフォーマンスが低い まったく良くない
#翻訳: 応答がある限り、品質は高いです
Geminiが翻訳を拒否する言語は主にラテン語ですおよびアラビア語
ネットワーク ナビゲーション: クロスサイト サーフィンが得意です
Gemini は、GPT-3.5 Turbo よりも全体的にパフォーマンスが劣りますが、複数のサイト間でのタスクではわずかに優れたパフォーマンスを示します。
#ネチズン: しかし、それは無料です
最終的に、CMU 准教授のグラハム ニュービッグ氏は、この研究にはいくつかの限界があることを認めましたAPI ベースのモデルの動作はいつでも変更される可能性があります。
Googleの大規模モデル推論チームの責任者であるZhou Dengyong氏は、ジェミニの温度を0に設定すると5〜10パーセント上昇する可能性があると指摘しましたヘルプ
このテストでは、Gemini および GPT シリーズに加えて、最近入手したオープン ソース MoE モデル Mixtral
ただし、強化学習の専門家である Noam Brown 氏は、Mixtral は公式実装ではなくサードパーティ API を使用しているため、Mixtral の結果は無視できると考えています。
Mistral AI の創設者は、より良い結果をもたらすと信じて、チームに正式バージョンへのアクセスを提供しました
Gemini Pro は GPT ほど優れていませんが-3.5、その利点は、1 分あたり 60 呼び出しを超えない限り無料で使用できることです。
したがって、多くの個人開発者がキャンプを変更しました。 ##現在、Gemini が最も高い Ultra バージョンはまだリリースされていませんが、CMU チームはそれまでにこの研究を続ける予定ですが、Gemini Ultra は GPT-4 のレベルに到達できると思いますか?
この記事は論文を詳しく紹介しています: https://arxiv.org/abs/2312.11444
参考リンク:
[1]https://twitter.com/gneubig/status/1737108977954251216。
以上がCMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。