目次
GPT-4 の精度はわずか 33%です
被験者の選択方法に疑問が生じています
ホームページ テクノロジー周辺機器 AI GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

Nov 21, 2023 am 08:38 AM
ai 推論

GPT-4 の図形推論能力は人間の半分以下ですか?

米国のサンタフェ研究所による研究によると、GPT-4 の図形推論問題における精度はわずか 33% です。

GPT-4v はマルチモーダル機能を備えていますが、パフォーマンスは比較的低く、質問の 25% しか正しく答えることができません

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

△点線16 タスクの平均パフォーマンスを示します

この実験の結果が発表されるとすぐに、YC に関する広範な議論が巻き起こりました

この結果を支持した一部のネチズンは、GPT は確かに処理能力に優れていると述べました抽象的なグラフィックス パフォーマンスが悪く、「位置」や「回転」などの概念を理解するのがより困難

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

しかし、一部のネチズンはこの結論に疑問を表明し、

この見解が間違っているとは言えませんが、完全に説得力があるとは言えません

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

次のように見解を簡単に要約できます。具体的な理由については、続きをお読みください。

GPT-4 の精度はわずか 33%です

これらのグラフィックス問題に対する人間と GPT-4 のパフォーマンスを評価するために、研究者らは今年 5 月に発売された ConceptARC データセットを使用しました。 year

ConceptARC には、グラフィカル推論問題 のサブカテゴリが合計 16 個含まれており、各カテゴリに 30 問、合計 480 問あります。

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

これらの 16 のサブカテゴリには、位置関係、形状、操作、比較などが含まれます。

具体的には、これらの質問はピクセル ブロックで構成されています。人間と GPT は、与えられた例に基づいてパターンを見つけ、同じ方法で処理された画像の結果を分析する必要があります。

著者は、論文の中でこれら 16 のサブカテゴリの例をカテゴリごとに 1 つずつ具体的に示しています。

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%
GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%
GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

結果は、451 人の被験者の平均正解率が各サブ項目で 83% 以上であることを示しました。 . 16 個のタスクの平均を取ると、91% に達します。

問題が 3 回試行できる場合 (1 回正解すれば正解)、GPT-4 (単一サンプル) の最高精度は 60% を超えず、平均はわずか 33%

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

以前、この実験に参加した ConceptARC Benchmark の作成者も同様の実験を実施しましたが、GPT-4 では ゼロサンプルでしたテスト、16のタスクの平均正解率はわずか19%です。

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

GPT-4v はマルチモーダル モデルですが、精度が低いです。 48 の質問で構成される小規模な ConceptARC データ セットでは、ゼロサンプル テストと単一サンプル テストの正解率はそれぞれわずか 25% と 23% でした。

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

研究者らは、間違った回答をさらに分析した結果、 いくつかの人的ミスは「不注意」によって引き起こされる可能性が高いことが判明しましたが、GPT は質問のルールをまったく理解していませんでした ## #。

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

ほとんどのネチズンはこれらのデータについて何の疑問も持っていませんが、この実験に疑問を持たせているのは、募集した被験者のグループとGPTに提供された入力方法です

被験者の選択方法に疑問が生じています

当初、研究者らは Amazon のクラウドソーシング プラットフォームで被験者を募集しました。

研究者は、導入テストとしてデータセットからいくつかの簡単な質問を抽出しました。被験者は正式なテストに入る前に、3つのランダムな質問のうち少なくとも2つに正しく答える必要があります

研究者らが発見した結果によると、一部の人は金銭欲だけを目的に入学試験を受け、要求通りに質問を完了しない人もいるということです。

研究者らは最後の手段として、 will テストに参加するための基準は、プラットフォーム上で 2,000 個以上のタスクが完了するまで引き上げられ、合格率は 99% に達する必要があります。 ただし、著者は合格率を使って人材を選別していますが、特定の能力に関しては、英語を話せることを被験者に要求することに加えて、

その他の専門家には「特別な要件はありません」。グラフィックスなどの能力 データの多様性を実現するために、研究者らは実験の後半で採用活動を別のクラウドソーシング プラットフォームに移行しました。最終的に、合計 415 人の被験者がこの実験に参加しました。

これにもかかわらず、実験のサンプルが「

十分にランダムではない」という疑問を抱く人もいました。 。

一部のネチズンは、研究者が被験者を募集するために使用している Amazon のクラウドソーシング プラットフォームに、

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33% 人間を装った大きなモデルがいたと指摘しました。 #。

#GPT のマルチモーダル バージョンの操作は比較的簡単で、画像を直接入力し、対応するプロンプトの単語を使用するだけです。

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%ゼロサンプル テストでは、対応する EXAMPLE 部分を削除するだけです

ただし、マルチモダリティのないプレーン テキスト バージョンの GPT-4 (0613) の場合は、画像をグリッド ポイントに挿入します。

色の代わりに数字を使用しますGPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

この操作に同意しない人もいます: 画像をデジタル マトリックスに変換すると、概念は完全に変わります

、人間ですら数字で表される「グラフィック」を見ても理解できないかもしれませんGPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

One More Thing偶然にも、中国の博士課程学生、ジョイ・スーさんスタンフォード大学では、幾何学データセットで GPT-4v のグラフ理解能力もテストしており、昨年、大規模モデルによるユークリッド幾何学の理解をテストするためのデータセットがリリースされました。 GPT-4v が開かれた後、Hsu はそのデータ セットを使用して再度テストしました。その結果、GPT-4v はグラフィックスを「人間とはまったく異なる方法で」理解しているようでした。

GPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%

#データの観点から見ると、GPT-4v はこれらの幾何学的な質問への答えにおいて人間よりも大幅に劣っています

# #論文アドレス:

[1]https://arxiv.org/abs/2305.07141

[2]https://arxiv.org/abs/2311.09247

以上がGPT-4 はグラフ推論のパフォーマンスが低いですか? 「水を放つ」後も命中率はわずか33%の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Debian Mail Serverファイアウォールの構成のヒント Debian Mail Serverファイアウォールの構成のヒント Apr 13, 2025 am 11:42 AM

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします(まだインストールされていない場合):sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール:sudoiptables-l configuration

Debian Mail Server SSL証明書のインストール方法 Debian Mail Server SSL証明書のインストール方法 Apr 13, 2025 am 11:39 AM

Debian Mail ServerにSSL証明書をインストールする手順は次のとおりです。1。最初にOpenSSL Toolkitをインストールすると、OpenSSLツールキットがシステムに既にインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoapt-getUpdatesudoapt-getInstalopenssl2。秘密キーと証明書のリクエストを生成次に、OpenSSLを使用して2048ビットRSA秘密キーと証明書リクエスト(CSR)を生成します:Openss

Centosシャットダウンコマンドライン Centosシャットダウンコマンドライン Apr 14, 2025 pm 09:12 PM

Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。

ソニーは、PS5 Proで特別なGPUを使用してAMDを使用してAIを開発する可能性を確認しています ソニーは、PS5 Proで特別なGPUを使用してAMDを使用してAIを開発する可能性を確認しています Apr 13, 2025 pm 11:45 PM

Sony InteractiveEntertainmentのチーフアーキテクト(SIE、Sony Interactive Entertainment)のMark Cernyは、パフォーマンスアップグレードAMDRDNA2.xアーキテクチャGPU、およびAMDとの機械学習/人工知能プログラムコードノームの「Amethylst」を含む、次世代ホストPlayStation5Pro(PS5PRO)のハードウェアの詳細をリリースしました。 PS5PROパフォーマンスの改善の焦点は、より強力なGPU、高度なレイトレース、AI搭載のPSSRスーパー解像度関数を含む3つの柱に依然としてあります。 GPUは、SonyがRDNA2.xと名付けたカスタマイズされたAMDRDNA2アーキテクチャを採用しており、RDNA3アーキテクチャがあります。

Centosのgitlabのバックアップ方法は何ですか Centosのgitlabのバックアップ方法は何ですか Apr 14, 2025 pm 05:33 PM

Centosシステムの下でのGitlabのバックアップと回復ポリシーデータセキュリティと回復可能性を確保するために、Gitlab on Centosはさまざまなバックアップ方法を提供します。この記事では、いくつかの一般的なバックアップ方法、構成パラメーター、リカバリプロセスを詳細に紹介し、完全なGitLabバックアップと回復戦略を確立するのに役立ちます。 1.手動バックアップGitlab-RakeGitlabを使用:バックアップ:コマンドを作成して、マニュアルバックアップを実行します。このコマンドは、gitlabリポジトリ、データベース、ユーザー、ユーザーグループ、キー、アクセスなどのキー情報をバックアップします。デフォルトのバックアップファイルは、/var/opt/gitlab/backupsディレクトリに保存されます。 /etc /gitlabを変更できます

CentosでのZookeeperのパフォーマンスを調整する方法は何ですか CentosでのZookeeperのパフォーマンスを調整する方法は何ですか Apr 14, 2025 pm 03:18 PM

CENTOSでのZookeeperパフォーマンスチューニングは、ハードウェア構成、オペレーティングシステムの最適化、構成パラメーターの調整、監視、メンテナンスなど、複数の側面から開始できます。特定のチューニング方法を次に示します。SSDはハードウェア構成に推奨されます。ZookeeperのデータはDISKに書き込まれます。十分なメモリ:頻繁なディスクの読み取りと書き込みを避けるために、Zookeeperに十分なメモリリソースを割り当てます。マルチコアCPU:マルチコアCPUを使用して、Zookeeperが並行して処理できるようにします。

Debian Mail Server仮想ホスト構成方法 Debian Mail Server仮想ホスト構成方法 Apr 13, 2025 am 11:36 AM

Debianシステムでのメールサーバーの仮想ホストの構成には、通常、Apache Httpserverではなく、Apache Httpserverではなく、Mail Serverソフトウェア(Postfix、Eximなど)のインストールと構成が含まれます。以下は、メールサーバーの構成のための基本的な手順です仮想ホスト:ポストフィックスメールサーバー更新システムパッケージ:sudoaptupdatesudoaptupgradeポストフィックス:sudoapt

最後に変わった! Microsoft Windows検索機能は新しいアップデートの先導 最後に変わった! Microsoft Windows検索機能は新しいアップデートの先導 Apr 13, 2025 pm 11:42 PM

MicrosoftのWindows検索機能に対する改善は、EUのWindows Insiderチャネルでテストされています。以前は、統合されたWindows検索機能はユーザーによって批判されており、経験が不十分でした。この更新は、検索機能を2つの部分に分割します。ローカル検索とBingベースのWeb検索でユーザーエクスペリエンスを向上させます。検索インターフェイスの新しいバージョンは、デフォルトでローカルファイル検索を実行します。オンラインで検索する必要がある場合は、[Microsoft BingWebsearch]タブをクリックして切り替える必要があります。切り替え後、検索バーには「Microsoft BingWebsearch:」が表示され、ユーザーはキーワードを入力できます。この動きにより、ローカル検索結果とBing検索結果の混合が効果的に回避されます

See all articles