目次
質問回答: MMLU
コードに関する質問の場合、Gemini は参照回答が長い質問ではあまりパフォーマンスが良くありません
翻訳タスクでは、Gemini は拒否しました12種類の質問に答えますが、翻訳品質が優れている限り、全体的なパフォーマンスはGPT-4を超えます
WebArena は、電子商取引、ソーシャル フォーラム、GitLab コラボレーションなど、AI 用のインターネット環境をシミュレートします。開発、コンテンツ管理システム、オンライン マップ。 AI は、この環境で情報を見つけたり、複数のサイト間でタスクを完了したりする必要があります。
ホームページ テクノロジー周辺機器 AI CMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。

CMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。

Dec 21, 2023 am 08:13 AM
グーグル gpt-3.5 gemini

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Google Gemini の強みは何ですか?カーネギーメロン大学は、専門的かつ客観的なサードパーティによる比較を実施しました。

公平性を確保するために、#すべてのモデルは同じプロンプトと生成パラメータを使用し、再現可能なコードと完全な透過的な結果を提供します

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

は、

Google の公式カンファレンス のように、5 ショットの比較に CoT@32 を使用しません。

結果を 1 文にまとめると:

Gemini Pro バージョンは GPT-3.5 Turbo に近いもののわずかに劣ります 、GPT-4 はまだはるかに先を行っています。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

詳細な分析では、次のような双子座のいくつかの奇妙な特徴も見つかりました。多肢選択問題...

多くの研究者は、Gemini はリリース後わずか数日で非常に詳細なテストを受けたと述べており、これは非常に注目に値する成果です

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

6 つの主要タスクの詳細テスト

このテストでは、6 つの異なるタスクを具体的に比較し、各タスクに対応するデータ セットを選択しますGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

質問回答: MMLU

推論: BIG-Bench Hard

    数学: GSM8k、SVAMP、ASDIV、MAWPS
  • コード: HumanEval、ODEX
  • 翻訳: FLORES
  • インターネットサーフィン: WebArena
  • トリビア: D
  • を選択するのが好き 結果によると、このタイプの思考連鎖プロンプトを使用すると、タスクは必ずしも効果を向上させるわけではありません

MMLU データセットでは、すべての質問は多肢選択式の質問です。結果をさらに分析した結果、奇妙な現象が発見されました: Gemini はオプション D を好みます。4 つのオプション間の GPT シリーズの分布はよりバランスが取れています。チームは、これが Gemini

が原因で発生した可能性があることを示唆しました。多肢選択問題に対する多くの指示を微調整しないことによって。 Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

さらに、Gemini のセキュリティ フィルタリングは非常に厳格です。倫理的な質問に関しては、質問の 85% しか答えられません。そして、人間のセクシュアリティに関する質問に関しては、質問の 28% しか答えられませんでした。

Gemini Pro は、セキュリティ研究と高校のミクロ経済学で GPT を上回りました (3.5)。ギャップは大きくなく、チームは特別なものは見つからなかったと述べています

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

理由付け: 長い質問は苦手です

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

GPT シリーズは、より長く複雑な問題を処理するときにパフォーマンスが向上します。それに比べて、Gemini Pro のパフォーマンスは低くなります。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复特に長い問題では、GPT-4 Turbo のパフォーマンスはほとんどありません。パフォーマンスは低下します。複雑な問題を理解する優れた能力を持っているということです。この種の問題には、人々がアイテムを交換することが含まれており、最終的には AI が各人がどのアイテムを所有しているかを判断する必要があります。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

ジェミニが得意とするタスクには、世界のスポーツ知識の理解、記号スタックの操作、単語のアルファベット順の並べ替え、表の解析などがあります。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

##数学:複雑なタスクでの優位性

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

質問自体が長すぎるため、Gemini Pro と GPT-3.5 のパフォーマンスが同時に低下します。GPT-4 のみが、一貫したレベル

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

思考連鎖の長さが最長に達すると、Gemini は GPT-3.5 を超えます

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复## コード: matplotlib が得意です

コードに関する質問の場合、Gemini は参照回答が長い質問ではあまりパフォーマンスが良くありません

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复 GPT シリーズはほとんどのタイプで強力ですが、 matplotlib のパフォーマンスが低い まったく良くない

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复#翻訳: 応答がある限り、品質は高いです

翻訳タスクでは、Gemini は拒否しました12種類の質問に答えますが、翻訳品質が優れている限り、全体的なパフォーマンスはGPT-4を超えます

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复Geminiが翻訳を拒否する言語は主にラテン語ですおよびアラビア語

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复ネットワーク ナビゲーション: クロスサイト サーフィンが得意です

WebArena は、電子商取引、ソーシャル フォーラム、GitLab コラボレーションなど、AI 用のインターネット環境をシミュレートします。開発、コンテンツ管理システム、オンライン マップ。 AI は、この環境で情報を見つけたり、複数のサイト間でタスクを完了したりする必要があります。

Gemini は、GPT-3.5 Turbo よりも全体的にパフォーマンスが劣りますが、複数のサイト間でのタスクではわずかに優れたパフォーマンスを示します。

#ネチズン: しかし、それは無料ですGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

最終的に、CMU 准教授のグラハム ニュービッグ氏は、この研究にはいくつかの限界があることを認めました

API ベースのモデルの動作はいつでも変更される可能性があります。

    試行されたプロンプトの数は限られており、異なるモデルに適用されるプロンプトの言葉は異なる場合があります。
  • テストセットはリークです

Googleの大規模モデル推論チームの責任者であるZhou Dengyong氏は、ジェミニの温度を0に設定すると5〜10パーセント上昇する可能性があると指摘しましたヘルプGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

このテストでは、Gemini および GPT シリーズに加えて、最近入手したオープン ソース MoE モデル MixtralGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

ただし、強化学習の専門家である Noam Brown 氏は、Mixtral は公式実装ではなくサードパーティ API を使用しているため、Mixtral の結果は無視できると考えています。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Mistral AI の創設者は、より良い結果をもたらすと信じて、チームに正式バージョンへのアクセスを提供しました

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro は GPT ほど優れていませんが-3.5、その利点は、1 分あたり 60 呼び出しを超えない限り無料で使用できることです。

したがって、多くの個人開発者がキャンプを変更しました。 ##現在、Gemini が最も高い Ultra バージョンはまだリリースされていませんが、CMU チームはそれまでにこの研究を続ける予定ですが、Gemini Ultra は GPT-4 のレベルに到達できると思いますか?

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复この記事は論文を詳しく紹介しています: https://arxiv.org/abs/2312.11444

参考リンク:

[1]https://twitter.com/gneubig/status/1737108977954251216。

以上がCMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

トップ10のデジタル通貨交換のランキングトップ10の仮想通貨取引ソフトウェアプラットフォームの最新リスト トップ10のデジタル通貨交換のランキングトップ10の仮想通貨取引ソフトウェアプラットフォームの最新リスト Apr 22, 2025 pm 01:15 PM

上位10のデジタル通貨交換は次のとおりです。1。Binance、2。Okx、3。Gate.io、4。Coinbase、5。Kraken、6。Bitfinex、7。Huobi、8。Kucoin、9。Bitstamp、10。Gemini、これらのプラットフォームは、高速化のために強く想定されています。

デジタル通貨交換アプリ向けのトップ10のAppleバージョンダウンロードポータルの概要 デジタル通貨交換アプリ向けのトップ10のAppleバージョンダウンロードポータルの概要 Apr 22, 2025 am 09:27 AM

さまざまな複雑な取引ツールと市場分析を提供します。 100か国以上をカバーし、1日の平均デリバティブ取引量は300億米ドルを超え、300を超える取引ペアと200倍のレバレッジをサポートし、強力な技術的強さ、巨大なグローバルユーザーベース、専門的な取引プラットフォーム、安全なストレージソリューション、豊富な取引ペアを提供します。

2つの交換はコインを互いに変換できますか? 2つの交換はコインを互いに変換できますか? 2つの交換はコインを互いに変換できますか? 2つの交換はコインを互いに変換できますか? Apr 22, 2025 am 08:57 AM

できる。 2つの交換は、同じ通貨とネットワークをサポートする限り、コインを互いに転送できます。手順には次のものが含まれます。1。コレクションアドレスを取得し、2。引き出しリクエストを開始します。3。確認を待ちます。注:1。正しい転送ネットワークを選択します。2。住所を注意深く確認します。3。手数料を理解します。4。アカウント時間に注意してください。5。交換がこの通貨をサポートしていることを確認します。

Binanceの公式ウェブサイトEntrance Binance公式最新の入り口2025 Binanceの公式ウェブサイトEntrance Binance公式最新の入り口2025 Apr 28, 2025 pm 07:54 PM

Binanceの公式Webサイトにアクセスして、フィッシングWebサイトを避けるためにHTTPSとグリーンロックロゴを確認してください。公式アプリケーションにも安全にアクセスできます。

推奨される信頼できるデジタル通貨取引プラットフォーム。世界のトップ10のデジタル通貨交換。 2025 推奨される信頼できるデジタル通貨取引プラットフォーム。世界のトップ10のデジタル通貨交換。 2025 Apr 28, 2025 pm 04:30 PM

推奨される信頼できるデジタル通貨取引プラットフォーム:1。OKX、2。Binance、3。Coinbase、4。Kraken、5。Huobi、6。Kucoin、7。Bitfinex、8。Gemini、9。Bitstamp、10。Poloniex、これらのプラットフォームは、セキュリティ、ユーザーエクスペリエンス、ユーザーエクスペリエンス、ユーザーエクスペリエンス、ユーザーエクスペリエンスのデジタルエクスペリエンス、デジタルエクスペリエンスのデジタルエクスペリエンス、デジタルエクスペリエンスのために知られています。

stablecoinsとは何ですか? Stablecoinsを交換する方法は? stablecoinsとは何ですか? Stablecoinsを交換する方法は? Apr 22, 2025 am 10:12 AM

一般的なスタブコインは次のとおりです。1。テザーが発行し、米ドルに留まり、広く使用されていますが、透明性は疑問視されています。 2。CircleとCoinbaseによって発行された米ドル、透明性が高く、機関が好む。 3。Makerdaoによって発行されたDai、分散化され、Defi分野で人気。 4。BinanceとPaxosが協力したBinance Dollar(Busd)は、優れた取引と支払いのパフォーマンスを持っています。 5。Trustto

2025年にトップ10の仮想通貨アプリトレーディングプラットフォームが推奨するトップ10仮想通貨アプリのランキング 2025年にトップ10の仮想通貨アプリトレーディングプラットフォームが推奨するトップ10仮想通貨アプリのランキング Apr 28, 2025 pm 04:12 PM

トップ10仮想通貨アプリのランキング:1。OKX、2。BINANCE、3。GATE.IO、4。COINBASE、5。KRAKEN、6。HUOBI、7。BITFINEX、8。KUCOIN、9。BITSTAMP、10。GEMINI、これらの交換は、効率的な取引システム、複数のセキュリティ対策を満たすために、効率的な取引システムのニーズを満たすために知られています。

2025年に推奨されるトップ10の暗号通貨アプリは、仮想通貨取引プラットフォームアプリのランキングで推奨 2025年に推奨されるトップ10の暗号通貨アプリは、仮想通貨取引プラットフォームアプリのランキングで推奨 Apr 30, 2025 am 10:33 AM

2025年に推奨されるトップ10の暗号通貨アプリ:1。OKX、2。Binance、3。Coinbase。 1。OKXは、その強力な機能とユーザーフレンドリーなインターフェイスで最初にランク付けされ、さまざまなトランザクションとステーキングサービスをサポートします。 2。ビナンスは、巨大なユーザーベースと豊富な取引ペアで2位にランクされ、さ​​まざまな取引およびIEOサービスを提供します。 3. Coinbaseは、ユーザーフレンドリーなインターフェイスと強力なセキュリティ対策で3位にランクされており、さまざまな主流の仮想通貨取引をサポートしています。

See all articles