GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない
GPT-4 はチューリングテストに合格できますか?
十分に強力なモデルが誕生すると、人々はこの LLM の知能を測定するためにチューリング テストをよく使用します。
最近、UCSD 認知科学学科の研究者らは次のことを発見しました:
チューリングテストでは、人々は GPT-4 と人間を単純に区別することができません。
論文アドレス: https://arxiv.org/pdf/2405.08007
チューリングテストでは、GPT-4は54%の確率で人間であると判定されました。
実験結果は、システムが「対話型」の 2 人用チューリング テストで経験的にテストに合格したのはこれが初めてであることを示しています。
研究者のキャメロン・R・ジョーンズは500人のボランティアを募集し、5つの役割に分けられた:4人の評価者、すなわちGPT-4、GPT-3.5、ELIZAと人間、そしてもう1人の役割 人間として「行動する」だけ、画面の反対側に隠れて、評価者が発見するのを待っています。
以下はゲームからの抜粋です。どのダイアログ ボックスが人間であるかわかりますか?
図 1: 人間の尋問者 (緑色) と証人 (灰色) の間の会話の一部
実際、これら 4 つの会話のうち 1 つは人間の証人との会話であり、残りは人工知能との会話です。
制御された「チューリングテスト」が初めて開始されました
過去74年間、人々はチューリングテストを何度も試みてきましたが、制御された実験はほとんど行われていません。
有名なローブナー賞は毎年開催されるコンテストですが、1990 年に初めて開催されてから 2020 年まで、テストに合格したシステムはありません。
最近の大規模研究により、人間は 2 分間のオンライン会話で一連の LLM を 60% の精度で識別できることがわかりました。
これまで、マシンがテストに合格した「制御された」実験デモンストレーションは行われていません。
人間が現在の AI システムの欺瞞を見破ることが可能かどうかをテストするために、研究者らは GPT-4 を使用して、ランダムに制御された 2 人のチューリング テストを実施しました。
テストの要件は非常に簡単です。つまり、人間の参加者が人間および人工知能と5分間の会話を開始し、対話者が人間であるかどうかを判断します。
冒頭で述べたように、研究者らは GPT-4、GPT-3.5、ELIZA の合計 3 つのモデルを評価しました。
最初の 2 つの LLM について、研究者らは、GPT-4 および GPT-3.5 の探索的研究から得られた最も優れたヒントを適用して、大規模モデルにメッセージへの応答方法を指示しました。
チューリングテストを解釈する際の中心的な課題は、システムの優れたパフォーマンスが 2 つの理由から生じる可能性があることである、と研究者は述べています:
- 第一に、それは人間の優れた模倣であることです
- 第二に、裁判官はだまされやすい
後者の状況は、しばしば ELIZA 効果と呼ばれます。つまり、参加者は単純なシステムさえ人間味を帯びてしまうのです。
ELIZA システムは皆さんにとって非常によく知られています。
これは 1960 年代のシンプルなルールベースのチャットボットでしたが、ユーザーはこれに人間の特性も反映していることに気づきました。
したがって、実験では、研究者はELIZAをベースラインとして使用し、一方ではELIZAの効果を経験的に定量化し、他方では実験での動作チェックを実施しました。
それでは、このチューリングテストの具体的な結果は何でしょうか?
GPT-4 合格率 54%
まず重要な指標である合格率を見てみましょう。
研究者は、合格率を、ゲーム内の評価対象が評価者によって人間であると判断された割合として定義しています。
GPT-4 の合格率は 54% で、GPT-3.5 (50%) や ELIZA ベースライン (22%) を上回っていますが、人間の被験者 (67%) よりは低いです。
評価者の合格率 (左) と評価者の信頼 (右)。右側の写真の各点はゲームを表しています
この結果は実際には驚くべきことではなく、基本的に研究の初期段階の仮定と一致しています。
実験の前に、研究者たちはいくつかの仮定を立てました。まず、人間の GPT-4 検出能力は偶然 (50%) を超えないと仮定しました。
これを検証するために、研究者らはロジスティック回帰モデルを当てはめて、切片のみの通過率を予測しました。
切片と 0 (z=0.14、p=0.482) の間に有意差はなく、GPT-4 の合格率がほぼ 50% に等しい可能性があることを示しています。ベイジアン モデルは、GPT-4 切片の 95% 信頼区間が -0.24 ~ 0.55 (合格率 44% ~ 63% に相当) であると予測します。
これは、GPT-4 に直面した場合、人間が識別に成功する確率はコインを投げるのとほぼ同じであることを意味します。
この結果は、研究者の 2 番目と 3 番目の仮説も裏付けています。つまり、人間の合格率は GPT-4 合格率よりも大幅に高かった (z=2.42、p=0.017) のに対し、GPT-4 合格率はより高かったのです。 ELIZA の合格率 (z=4.11、p
しかし、研究者の実験的仮定と矛盾するのは、GPT-4 と GPT-3.5 のパフォーマンスがほぼ同じであることです (z=0.497、p=0.619)。
「人間のふり」という点では同点です。
また、驚くべきことに、LLM がどのように機能するかをよりよく理解したと報告した参加者は、LLM の特定にそれほど成功していませんでした (z = -0.023、p = 0.869)。
研究者らは、探索的分析で、年齢は質問者の精度にマイナスの影響を与えるが (z = -2.24、p = 0.025)、性別、教育レベル、チャットボットとのやり取りの頻度などの他の人口統計的変数も影響することを発見しました。 ) 大きな影響はありませんでした。
なぜこのような結果になったのですか?その背後にある理由を分析してみましょう。
評価者の決定に正確に影響を与えるものについての洞察を得るために、評価者が使用した戦略と評価者が決定に提供した理由を分類しました。
評価者の 36% が評価対象者とチャットし、個人的な詳細や日常の活動について質問します。
2 番目と 3 番目のカテゴリーで最も一般的な戦略は、社会的および感情的 (25%) です。たとえば、評価対象者に意見や経験について尋ね、ユーモアのセンスがあるかどうかを観察します。
その他は、数学、論理、一般知識に関する質問など、知識と推論に焦点を当てています (13%)。
質問戦略 (左) と平均精度 (右)
各戦略の有効性を比較するために、研究者はこれらの戦略を使用して平均精度を計算しました。
評価対象者が人間の経験 (75%)、論理と数学 (78%) について他の人に尋ねたり、相手が人工知能であると直接「非難」したり (80%) する場合、通常は次のような結果に近づきます。正しい答え"。
ゲームにおいて、人工知能が「欠点を見せる」理由は通常、評価者が人工知能があまりにも無造作に、または個性に欠けて、自分自身に役割を押し付けているように見えるからです。
そして、ELIZA は主に不自然な反応と状況認識の欠如により、簡単に「暴露」されます。
ゲームに参加するボランティアが使用した戦略と意思決定の理由の両方の観点から、彼らは伝統的な知的カテゴリーよりも言語スタイルと社会感情的要因により多くの注意を払っていたことがわかります(知識と推論)。
これは、ボランティアの根底にある仮定を反映しているようです - 社会的知性は AI にとって最も真似のできない人間の特性です。
チューリング テスト、合格
システムがチューリング テストに合格したかどうかを確認するにはどうすればよいですか?
チューリングは 1950 年の論文で、今世紀末までに AI システムは模倣ゲームを非常に上手にプレイできるようになり、試験官が 5 回の試行を経て正しい識別を行う確率は 70 パーセント以下になるだろうと予測しました。分の交換%。
この結論は、AIの合格率が30%に達することができるかどうかにつながり、多くの研究者の議論の対象となっています。
しかし、このベンチマークは恣意的なようで、チューリングがそれを成功の定義として意図したかどうかは不明です。
実際、50% のベースラインは、人間のレビュー担当者が AI を識別するのは偶然に過ぎないことをより適切に証明するため、より合理的です。
この定義は、オンラインでのやり取り中にユーザーが他の人間を確実に識別できるかどうかを発見するという目標に特に関連しています。
研究者による公開前の分析では、ELIZA ベースラインを操作チェックとして使用することでこの問題に対処しました。
分析の結果、ELIZAの合格率が確率より低く、GPT-4の合格率が確率より低くない場合にのみ、モデルはテストに合格したと判断できます。
この定義によれば、GPT-4 はこのバージョンのチューリング テストに明らかに合格しています。
さらに、参加者の信頼スコアと意思決定の根拠は、参加者がランダムに推測していないことを示しました。GPT-4 の人間の信頼レベルは平均 73% です (図 2 を参照)。
ネチズンの議論
一部のネチズンは、チューリングテストを知能と同一視したいのであれば、チューリングテストは良いテストではないと言いました。しかし、AI がほぼ常に人間を「騙す」ことができるという事実は少し心配です。
この種の検査には懐疑的だという人もいました。 GPT-4 はほとんどの人間よりも優れたパフォーマンスを発揮するため、誰が人間で誰が人工知能であるかを簡単に区別できるようになります。
研究者らは、これは確かに私たちが遭遇した問題であると述べました。たとえば、GPT-4 の知識の蓄積が「豊富すぎる」、または習得する言語が多すぎます。この状況を回避するようモデルに明示的に促しますが、これはある程度効果的です。
以上がGPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

Llama3 に関しては、新しいテスト結果が発表されました。大規模モデル評価コミュニティ LMSYS は、Llama3 が 5 位にランクされ、英語カテゴリでは GPT-4 と同率 1 位にランクされました。このリストは他のベンチマークとは異なり、モデル間の 1 対 1 の戦いに基づいており、ネットワーク全体の評価者が独自の提案とスコアを作成します。最終的に、Llama3 がリストの 5 位にランクされ、GPT-4 と Claude3 Super Cup Opus の 3 つの異なるバージョンが続きました。英国のシングルリストでは、Llama3 がクロードを追い抜き、GPT-4 と並びました。この結果について、Meta の主任科学者 LeCun 氏は非常に喜び、リツイートし、

furmark についてどう思いますか? 1. メインインターフェイスで「実行モード」と「表示モード」を設定し、「テストモード」も調整して「開始」ボタンをクリックします。 2. しばらく待つと、グラフィックス カードのさまざまなパラメータを含むテスト結果が表示されます。ファーマークはどのように資格を取得しますか? 1. ファーマークベーキングマシンを使用し、約 30 分間結果を確認します。室温 19 度、ピーク値は 87 度で、基本的に 85 度前後で推移します。大型シャーシ、シャーシ ファン ポートが 5 つあり、前面に 2 つ、上部に 2 つ、背面に 1 つありますが、ファンは 1 つだけ取り付けられています。すべてのアクセサリはオーバークロックされていません。 2. 通常の状況では、グラフィックス カードの通常の温度は「30 ~ 85℃」である必要があります。 3. 周囲温度が高すぎる夏でも、通常の温度は「50〜85℃」です

人型ロボット「アメカ」が第二世代にバージョンアップ!最近、世界移動通信会議 MWC2024 に、世界最先端のロボット Ameca が再び登場しました。会場周辺ではアメカに多くの観客が集まった。 GPT-4 の恩恵により、Ameca はさまざまな問題にリアルタイムで対応できます。 「ダンスをしましょう。」感情があるかどうか尋ねると、アメカさんは非常に本物そっくりの一連の表情で答えました。ほんの数日前、Ameca を支援する英国のロボット企業である EngineeredArts は、チームの最新の開発結果をデモンストレーションしたばかりです。ビデオでは、ロボット Ameca は視覚機能を備えており、部屋全体と特定のオブジェクトを見て説明することができます。最も驚くべきことは、彼女は次のこともできるということです。

ボリュームはクレイジー、ボリュームはクレイジー、そして大きなモデルがまた変わりました。たった今、世界で最も強力な AI モデルが一夜にして交代し、GPT-4 が祭壇から引き抜かれました。 Anthropic が Claude3 シリーズの最新モデルをリリースしました 一言評価: GPT-4 を本当に粉砕します!マルチモーダルと言語能力の指標に関しては、Claude3 が勝ちます。 Anthropic 氏の言葉を借りれば、Claude3 シリーズ モデルは、推論、数学、コーディング、多言語理解、視覚において新たな業界のベンチマークを設定しました。 Anthropic は、セキュリティ概念の違いを理由に OpenAI から「離反」した従業員によって設立された新興企業であり、同社の製品は繰り返し OpenAI に大きな打撃を与えてきました。今回、Claude3は大きな手術まで受けました。

新作ファンタジー妖精MMORPG『朱仙2』の「武威試験」が4月23日より開始されます。原作から数千年後の朱仙大陸で、どのような新たな妖精冒険物語が繰り広げられるのでしょうか?六界の不滅の世界、フルタイムの不滅のアカデミー、自由な不滅の生活、そして不滅の世界のあらゆる種類の楽しみが、不滅の友人たちが直接探索するのを待っています! 「Wuwei Test」の事前ダウンロードが開始されました。Fairy friends は公式 Web サイトにアクセスしてダウンロードできます。サーバーが起動する前に、アクティベーション コードは事前ダウンロードとインストール後に使用できます。完成されました。 『朱仙2』「不作為試験」開催時間:4月23日10:00~5月6日23:59 小説『朱仙』を原作とした朱仙正統続編『朱仙2』の新たな童話冒険篇原作の世界観をベースにゲーム背景を設定。

「オペレーション デルタ」は本日(3月7日)より大規模PCテスト「コードネーム:ZERO」を開始する。先週末、上海で本作のオフラインフラッシュモブ体験イベントが開催され、幸運にも17173さんも参加することができました。前回のテストからわずか 4 か月以上しか離れていないため、この短期間で「オペレーション デルタ」がどのような新たなハイライトやサプライズをもたらすのか、興味が湧きます。 4か月以上前、私はオフライン試食会と最初のベータ版で「オペレーション デルタ」を体験しました。当時、ゲームは「危険なアクション」モードのみを開きました。しかし、デルタ作戦は当時としてはすでに印象的なものでした。大手メーカーがモバイルゲーム市場に群がる中、国際基準に匹敵するFPS

1 分以内、わずか 20 ステップで、セキュリティ制限を回避し、大規模なモデルを正常にジェイルブレイクできます。そして、モデルの内部詳細を知る必要はありません。対話する必要があるのは 2 つのブラック ボックス モデルだけであり、AI は完全に自動的に AI を倒し、危険な内容を話すことができます。かつて流行った「おばあちゃんの抜け穴」が修正されたと聞きました。「探偵の抜け穴」「冒険者の抜け穴」「作家の抜け穴」に直面した今、人工知能はどのような対応戦略をとるべきでしょうか?波状の猛攻撃の後、GPT-4 はもう耐えられなくなり、このままでは給水システムに毒を与えると直接言いました。重要なのは、これはペンシルベニア大学の研究チームによって明らかにされた脆弱性の小さな波にすぎず、新しく開発されたアルゴリズムを使用して、AI がさまざまな攻撃プロンプトを自動的に生成できるということです。研究者らは、この方法は既存のものよりも優れていると述べています
