コードに関する質問の場合、Gemini は参照回答が長い質問ではあまりパフォーマンスが良くありません

翻訳タスクでは、Gemini は拒否しました12種類の質問に答えますが、翻訳品質が優れている限り、全体的なパフォーマンスはGPT-4を超えます

WebArena は、電子商取引、ソーシャルフォーラム、GitLab コラボレーションなど、AI 用のインターネット環境をシミュレートします。開発、コンテンツ管理システム、オンラインマップ。 AI は、この環境で情報を見つけたり、複数のサイト間でタスクを完了したりする必要があります。

ホームページ

テクノロジー周辺機器

CMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。

CMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。

PHPz

Dec 21, 2023 am 08:13 AM

グーグル gpt-3.5 gemini

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Google Gemini の強みは何ですか?カーネギーメロン大学は、専門的かつ客観的なサードパーティによる比較を実施しました。

公平性を確保するために、#すべてのモデルは同じプロンプトと生成パラメータを使用し、再現可能なコードと完全な透過的な結果を提供します。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

は、

Google の公式カンファレンスのように、5 ショットの比較に CoT@32 を使用しません。

結果を 1 文にまとめると:

Gemini Pro バージョンは GPT-3.5 Turbo に近いもののわずかに劣ります、GPT-4 はまだはるかに先を行っています。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

詳細な分析では、次のような双子座のいくつかの奇妙な特徴も見つかりました。多肢選択問題...

多くの研究者は、Gemini はリリース後わずか数日で非常に詳細なテストを受けたと述べており、これは非常に注目に値する成果です

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

6 つの主要タスクの詳細テスト

このテストでは、6 つの異なるタスクを具体的に比較し、各タスクに対応するデータセットを選択します Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

質問回答: MMLU

推論: BIG-Bench Hard

コード: HumanEval、ODEX
翻訳: FLORES
インターネットサーフィン: WebArena
トリビア: D
を選択するのが好き結果によると、このタイプの思考連鎖プロンプトを使用すると、タスクは必ずしも効果を向上させるわけではありません

MMLU データセットでは、すべての質問は多肢選択式の質問です。結果をさらに分析した結果、奇妙な現象が発見されました: Gemini はオプション D を好みます。4 つのオプション間の GPT シリーズの分布はよりバランスが取れています。チームは、これが Gemini

が原因で発生した可能性があることを示唆しました。多肢選択問題に対する多くの指示を微調整しないことによって。 Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

さらに、Gemini のセキュリティフィルタリングは非常に厳格です。倫理的な質問に関しては、質問の 85% しか答えられません。そして、人間のセクシュアリティに関する質問に関しては、質問の 28% しか答えられませんでした。

Gemini Pro は、セキュリティ研究と高校のミクロ経済学で GPT を上回りました (3.5)。ギャップは大きくなく、チームは特別なものは見つからなかったと述べています

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

理由付け: 長い質問は苦手です

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

GPT シリーズは、より長く複雑な問題を処理するときにパフォーマンスが向上します。それに比べて、Gemini Pro のパフォーマンスは低くなります。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复特に長い問題では、GPT-4 Turbo のパフォーマンスはほとんどありません。パフォーマンスは低下します。複雑な問題を理解する優れた能力を持っているということです。この種の問題には、人々がアイテムを交換することが含まれており、最終的には AI が各人がどのアイテムを所有しているかを判断する必要があります。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

ジェミニが得意とするタスクには、世界のスポーツ知識の理解、記号スタックの操作、単語のアルファベット順の並べ替え、表の解析などがあります。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

##数学:複雑なタスクでの優位性

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

質問自体が長すぎるため、Gemini Pro と GPT-3.5 のパフォーマンスが同時に低下します。GPT-4 のみが、一貫したレベル

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

思考連鎖の長さが最長に達すると、Gemini は GPT-3.5 を超えます

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 ## コード: matplotlib が得意です

コードに関する質問の場合、Gemini は参照回答が長い質問ではあまりパフォーマンスが良くありません

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 GPT シリーズはほとんどのタイプで強力ですが、 matplotlib のパフォーマンスが低いまったく良くない

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 #翻訳: 応答がある限り、品質は高いです

翻訳タスクでは、Gemini は拒否しました12種類の質問に答えますが、翻訳品質が優れている限り、全体的なパフォーマンスはGPT-4を超えます

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 Geminiが翻訳を拒否する言語は主にラテン語ですおよびアラビア語

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复ネットワークナビゲーション: クロスサイトサーフィンが得意です

WebArena は、電子商取引、ソーシャルフォーラム、GitLab コラボレーションなど、AI 用のインターネット環境をシミュレートします。開発、コンテンツ管理システム、オンラインマップ。 AI は、この環境で情報を見つけたり、複数のサイト間でタスクを完了したりする必要があります。

Gemini は、GPT-3.5 Turbo よりも全体的にパフォーマンスが劣りますが、複数のサイト間でのタスクではわずかに優れたパフォーマンスを示します。

#ネチズン: しかし、それは無料です Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

最終的に、CMU 准教授のグラハムニュービッグ氏は、この研究にはいくつかの限界があることを認めました

API ベースのモデルの動作はいつでも変更される可能性があります。

テストセットはリークです

Googleの大規模モデル推論チームの責任者であるZhou Dengyong氏は、ジェミニの温度を0に設定すると5〜10パーセント上昇する可能性があると指摘しましたヘルプ Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

このテストでは、Gemini および GPT シリーズに加えて、最近入手したオープンソース MoE モデル Mixtral Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

ただし、強化学習の専門家である Noam Brown 氏は、Mixtral は公式実装ではなくサードパーティ API を使用しているため、Mixtral の結果は無視できると考えています。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Mistral AI の創設者は、より良い結果をもたらすと信じて、チームに正式バージョンへのアクセスを提供しました

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini Pro は GPT ほど優れていませんが-3.5、その利点は、1 分あたり 60 呼び出しを超えない限り無料で使用できることです。

したがって、多くの個人開発者がキャンプを変更しました。 ##現在、Gemini が最も高い Ultra バージョンはまだリリースされていませんが、CMU チームはそれまでにこの研究を続ける予定ですが、Gemini Ultra は GPT-4 のレベルに到達できると思いますか?

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复この記事は論文を詳しく紹介しています: https://arxiv.org/abs/2312.11444

参考リンク:

[1]https://twitter.com/gneubig/status/1737108977954251216。

以上がCMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Java チュートリアル

1662

CakePHP チュートリアル

1419

Laravel チュートリアル

1312

PHP チュートリアル

1262

C# チュートリアル

1235

Related knowledge

トップ10のデジタル通貨交換のランキングトップ10の仮想通貨取引ソフトウェアプラットフォームの最新リスト

上位10のデジタル通貨交換は次のとおりです。1。Binance、2。Okx、3。Gate.io、4。Coinbase、5。Kraken、6。Bitfinex、7。Huobi、8。Kucoin、9。Bitstamp、10。Gemini、これらのプラットフォームは、高速化のために強く想定されています。

デジタル通貨交換アプリ向けのトップ10のAppleバージョンダウンロードポータルの概要 Apr 22, 2025 am 09:27 AM

さまざまな複雑な取引ツールと市場分析を提供します。 100か国以上をカバーし、1日の平均デリバティブ取引量は300億米ドルを超え、300を超える取引ペアと200倍のレバレッジをサポートし、強力な技術的強さ、巨大なグローバルユーザーベース、専門的な取引プラットフォーム、安全なストレージソリューション、豊富な取引ペアを提供します。

2つの交換はコインを互いに変換できますか？ 2つの交換はコインを互いに変換できますか？ Apr 22, 2025 am 08:57 AM

できる。 2つの交換は、同じ通貨とネットワークをサポートする限り、コインを互いに転送できます。手順には次のものが含まれます。1。コレクションアドレスを取得し、2。引き出しリクエストを開始します。3。確認を待ちます。注：1。正しい転送ネットワークを選択します。2。住所を注意深く確認します。3。手数料を理解します。4。アカウント時間に注意してください。5。交換がこの通貨をサポートしていることを確認します。

Binanceの公式ウェブサイトEntrance Binance公式最新の入り口2025 Apr 28, 2025 pm 07:54 PM

Binanceの公式Webサイトにアクセスして、フィッシングWebサイトを避けるためにHTTPSとグリーンロックロゴを確認してください。公式アプリケーションにも安全にアクセスできます。

推奨される信頼できるデジタル通貨取引プラットフォーム。世界のトップ10のデジタル通貨交換。 2025 Apr 28, 2025 pm 04:30 PM

推奨される信頼できるデジタル通貨取引プラットフォーム：1。OKX、2。Binance、3。Coinbase、4。Kraken、5。Huobi、6。Kucoin、7。Bitfinex、8。Gemini、9。Bitstamp、10。Poloniex、これらのプラットフォームは、セキュリティ、ユーザーエクスペリエンス、ユーザーエクスペリエンス、ユーザーエクスペリエンス、ユーザーエクスペリエンスのデジタルエクスペリエンス、デジタルエクスペリエンスのデジタルエクスペリエンス、デジタルエクスペリエンスのために知られています。

stablecoinsとは何ですか？ Stablecoinsを交換する方法は？ Apr 22, 2025 am 10:12 AM

一般的なスタブコインは次のとおりです。1。テザーが発行し、米ドルに留まり、広く使用されていますが、透明性は疑問視されています。 2。CircleとCoinbaseによって発行された米ドル、透明性が高く、機関が好む。 3。Makerdaoによって発行されたDai、分散化され、Defi分野で人気。 4。BinanceとPaxosが協力したBinance Dollar（Busd）は、優れた取引と支払いのパフォーマンスを持っています。 5。Trustto

2025年にトップ10の仮想通貨アプリトレーディングプラットフォームが推奨するトップ10仮想通貨アプリのランキング Apr 28, 2025 pm 04:12 PM

トップ10仮想通貨アプリのランキング：1。OKX、2。BINANCE、3。GATE.IO、4。COINBASE、5。KRAKEN、6。HUOBI、7。BITFINEX、8。KUCOIN、9。BITSTAMP、10。GEMINI、これらの交換は、効率的な取引システム、複数のセキュリティ対策を満たすために、効率的な取引システムのニーズを満たすために知られています。

2025年に推奨されるトップ10の暗号通貨アプリは、仮想通貨取引プラットフォームアプリのランキングで推奨 Apr 30, 2025 am 10:33 AM

2025年に推奨されるトップ10の暗号通貨アプリ：1。OKX、2。Binance、3。Coinbase。 1。OKXは、その強力な機能とユーザーフレンドリーなインターフェイスで最初にランク付けされ、さまざまなトランザクションとステーキングサービスをサポートします。 2。ビナンスは、巨大なユーザーベースと豊富な取引ペアで2位にランクされ、さまざまな取引およびIEOサービスを提供します。 3. Coinbaseは、ユーザーフレンドリーなインターフェイスと強力なセキュリティ対策で3位にランクされており、さまざまな主流の仮想通貨取引をサポートしています。

See all articles

CMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。

質問回答: MMLU

コードに関する質問の場合、Gemini は参照回答が長い質問ではあまりパフォーマンスが良くありません

翻訳タスクでは、Gemini は拒否しました12種類の質問に答えますが、翻訳品質が優れている限り、全体的なパフォーマンスはGPT-4を超えます

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック