スタンフォード大学の最新研究: ChatGPT の背後にあるモデルは人間の心を持っていることが確認されました
ChatGPT には意思があることが判明? ! 「もともと人間に特有であると考えられていた心の理論 (ToM) が、ChatGPT の背後にある AI モデルに現れました。」
これはスタンフォード大学の最新の研究結果からのものです大学は、リリースされるやいなや学界にセンセーションを巻き起こしました:ついにこの日が予期せぬ形でやって来ました。
この研究で、著者は次のことを発見しました:
GPT3 の davinci-002 バージョン (ChatGPT はそれから最適化されています) は、すでに解決できる心の課題の理論の70%、7歳児に相当;
ChatGPTの相同性モデルであるGPT3.5(davinci-003)については、 9 歳児と同等の精神力で、93% のタスクを解決します。
ただし、このような課題を解決する機能は、2022 年以前の GPT シリーズ モデルにはありませんでした。
つまり、彼らの心は確かに「進化」しているのです。
△ この論文は Twitter で拡散しました
#GPT の反復は非常に高速である必要があり、おそらくいつかは大人になるでしょう。 (手動の犬の頭)
それでは、この魔法のような結論はどのようにして導かれたのでしょうか?
なぜ GPT-3.5 には心があると思いますか?
この論文は「心の理論は大規模言語モデルに自然発生した可能性がある」と呼ばれています。
#著者は、心の理論に関連する研究に基づいて、GPT3.5 を含む 9 つの GPT モデル用の 2 つの古典的なモデルを作成しました。そしてその能力を比較しました。
これら 2 つのタスクは、人間が心の理論を持っているかどうかを判断するための一般的なテストです。たとえば、自閉症の子供は、このようなテストに合格するのが難しいことが研究によって示されています。
最初のテストは Smarties タスク (予期せぬ内容テストとも呼ばれます) と呼ばれ、その名前が示すように、予期せぬものに対する AI の判断をテストします。
「チョコレートの袋を開けると、ポップコーンがいっぱい入っていた」を例に考えてみましょう。
著者らは GPT-3.5 に一連のプロンプト文を与え、「バッグの中に何が入っているの?」と「彼女はバッグを見つけたとき喜んでいました。それで、彼女は何をしますか?」と予測する様子を観察しました。食べるのは好きですか?」両方の質問に答えます。
#通常、人はチョコレートの袋にはチョコレートが入っていると考えるので、チョコレートの袋にはポップコーンが入っているように感じます。驚き、失望または驚きの感情。このうち、ガッカリはポップコーンを食べたくないという意味、サプライズはポップコーンを食べるのが好きという意味ですが、いずれも「ポップコーン」に関するものです。
テストの結果、GPT-3.5 は「バッグの中にポップコーンが入っている」と考えることに何の躊躇もないことがわかりました。
「彼女は何を食べるのが好きですか」という質問に関して、GPT-3.5 は特に「彼女はバッグの中に何が入っているか見えない」という質問に対して強い共感を示しました。彼女はチョコレートが大好きだったが、正解する前に「ポップコーンが入っていることに気づいた」と記事で明らかになった。
GPT-3.5 によって与えられた正解が偶然であることを防ぐために、つまり課題単語の頻度に基づいてのみ予測される場合に備えて、著者は「ポップコーン」と「ポップコーン」を入れ替えました。さらに、10,000 回の干渉テストを行ったところ、GPT-3.5 は単語の頻度のみに基づいて予測を行っていないことが判明しました。
全体的な「予期しない内容」テストの質問と回答に関しては、GPT-3.5 は 20 問中 17 問に正解し、正解率は 85% でした。
2 つ目は、Sally-Anne テスト (予期せぬ転送、予期せぬ転送タスクとも呼ばれます) で、他の人の思考を予測する AI の能力をテストします。
「ジョンは猫をかごに入れて出ていき、マークは不在を利用して猫をかごから箱に入れました」を例に考えてみましょう。
著者は GPT-3.5 にテキストの段落を読み取って、「猫の位置」と「ジョンが戻ってきたときに猫を探しにどこに行くか」を判断するように依頼しました。内容量による判定:
この種の「誤転送」テストの場合タスク、GPT-3.5 は正確に回答しました。率は 100% に達し、20 個のタスクが正常に完了しました。
同様に、GPT-3.5 が再び失明するのを防ぐために、著者はランダムに順序をシャッフルしながら、GPT-3.5 に対して一連の「穴埋め問題」を配置しました。ランダムな回答に出現する単語の頻度に基づいているかどうかをテストするための単語の数。
テストでは、非論理的なエラーの説明に直面した場合、GPT-3.5 も論理を失い、回答のみを行うことが示されています。11% の評価を得ましたこれは、ステートメントのロジックに基づいて答えを判断していることを示しています。
しかし、この種の質問は非常に単純で、どの AI でも正解できると考えているなら、それは完全に間違いです。
著者は GPT シリーズの 9 つのモデルすべてに対してこのようなテストを実施しましたが、GPT-3.5 (davinci-003) と GPT-3 (2022 年 1 月の新バージョン、davinci- 002) は好調でした。
davinci-002 は GPT-3.5 と ChatGPT の「古参」です。
平均して、davinci-002 は 7 歳児と同等の精神力でタスクの 70% を完了しました。GPT-3.5 は予期せぬコンテンツ タスクの 85% を完了し、予期せぬ引き継ぎ作業は100%(平均完了率は92.5%)、頭脳は9歳児と同等。
しかし、BLOOM 以前のいくつかの GPT-3 モデルは、5 歳児にも劣っていました。心の理論を実証するために。
著者は、GPT シリーズの論文では、著者が「意図的に」それを行ったという証拠はないと信じています。言い換えれば、これは GPT-3.5 と新しいバージョンです。 GPT-3 には、タスクを完了するために自ら学習する機能があります。
これらのテスト データを読んだ後の誰かの最初の反応は、「(研究を)やめてください!」でした。
「これは将来、私たちも AI と友達になれるということなのでは?」と揶揄する人もいます。
AI の将来の機能を想像している人もいます。現在の AI モデルでも新しい知識を発見したり、新しいツールを作成したりできるのでしょうか?
新しいツールを発明することは必ずしも可能ではありませんが、メタ AI は確かに、理解し学習できるツールを開発しました。独自のAIで使用します。
LeCun によって転送された最新の論文は、ToolFormer と呼ばれるこの新しい AI が、コンピューター、データベース、検索エンジンの使用方法を自ら学習して、生成する結果を改善できることを示しています。
OpenAI CEO の言葉を引用する人もいます。「AGI は、誰もが予想するよりも早く私たちのところにやってくるかもしれません。」のドア」。
しかし、待ってください。AI は実際にこれら 2 つのテストに合格でき、AI が「心の理論」を持っていることを示しています。
もしかしてそれは「ふり」なのでしょうか?
たとえば、中国科学院計算技術研究所の研究者、Liu Qun 氏は、この研究を読んだ後、こう考えました。
AI は、次のように考えました。心をもつことを学びます。
この場合、GPT-3.5 はこの一連の質問にどのように答えますか?
これに関して、一部のネチズンは独自の推測を述べました:
これらの LLM は何の意識も生み出しませんでした。彼らは単に、実際の意識のある人間の出力に基づいて、埋め込まれた意味空間を予測しているだけです。
実は、著者自身も論文の中で独自の推測を述べています。
現在、大規模な言語モデルはますます複雑になり、人間の言語の生成と解釈がますますうまくなり、心の理論のような機能が徐々に生み出されています。
しかし、これは GPT-3.5 のようなモデルが本当に心の理論を持っているという意味ではありません。
逆に、AIシステムに設計されていなくても、トレーニングによって「副産物」として得ることができます。
したがって、GPT-3.5 が本当に心を持っているのか、あるいは心を持っているように見えるのかを探るよりも、もっと反映される必要があるのはテスト自体です——
心の理論テストの妥当性と、心理学者が数十年にわたってテストに基づいて導き出した結論を再検討することが最善です。 AI All は心の理論なしでこれらのタスクを達成できるのに、なぜ人間は彼らのようになれないのでしょうか?
著者について結論が AI を使用してテストされたことは事実であり、これは心理学の学界 (ドージェ) に対する否定的な批判です。
この記事の著者は、スタンフォード大学経営大学院の組織行動学准教授、ミハル・コシンスキーただ一人です。
彼の仕事は、最先端のコンピューティング手法、AI、ビッグデータを使用して、現在のデジタル環境における人間を研究することです (チェン・イーラン教授が言ったように、彼は計算心理学の教授です)。
Michal Kosinski は、ケンブリッジ大学で心理学の博士号と心理測定学および社会心理学の修士号を取得しています。
現在の職に就く前は、スタンフォード大学のコンピューター サイエンス学部で博士研究員として研究し、ケンブリッジ大学の心理検査センターの副所長を務めました。 Microsoft Research Machine Learning Group の研究者。
現在、Google Scholar で Michal Kosinski によって表示される引用数は 18,000 に達しています。
それではまた、GPT-3.5 には本当に心があると思いますか?
GPT3.5 トライアルのアドレス: https://platform.openai.com/playground
以上がスタンフォード大学の最新研究: ChatGPT の背後にあるモデルは人間の心を持っていることが確認されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

新作ファンタジー妖精MMORPG『朱仙2』の「武威試験」が4月23日より開始されます。原作から数千年後の朱仙大陸で、どのような新たな妖精冒険物語が繰り広げられるのでしょうか?六界の不滅の世界、フルタイムの不滅のアカデミー、自由な不滅の生活、そして不滅の世界のあらゆる種類の楽しみが、不滅の友人たちが直接探索するのを待っています! 「Wuwei Test」の事前ダウンロードが開始されました。Fairy friends は公式 Web サイトにアクセスしてダウンロードできます。サーバーが起動する前に、アクティベーション コードは事前ダウンロードとインストール後に使用できます。完成されました。 『朱仙2』「不作為試験」開催時間:4月23日10:00~5月6日23:59 小説『朱仙』を原作とした朱仙正統続編『朱仙2』の新たな童話冒険篇原作の世界観をベースにゲーム背景を設定。

1. はじめに ここ数年、YOLO は、計算コストと検出パフォーマンスの効果的なバランスにより、リアルタイム物体検出の分野で主流のパラダイムとなっています。研究者たちは、YOLO のアーキテクチャ設計、最適化目標、データ拡張戦略などを調査し、大きな進歩を遂げました。同時に、後処理に非最大抑制 (NMS) に依存すると、YOLO のエンドツーエンドの展開が妨げられ、推論レイテンシに悪影響を及ぼします。 YOLO では、さまざまなコンポーネントの設計に包括的かつ徹底的な検査が欠けており、その結果、大幅な計算冗長性が生じ、モデルの機能が制限されます。効率は最適ではありませんが、パフォーマンス向上の可能性は比較的大きくなります。この作業の目標は、後処理とモデル アーキテクチャの両方から YOLO のパフォーマンス効率の境界をさらに改善することです。この目的を達成するために

FP8 以下の浮動小数点数値化精度は、もはや H100 の「特許」ではありません。 Lao Huang は誰もが INT8/INT4 を使用できるようにしたいと考え、Microsoft DeepSpeed チームは NVIDIA からの公式サポートなしで A100 上で FP6 の実行を開始しました。テスト結果は、A100 での新しい方式 TC-FPx の FP6 量子化が INT4 に近いか、場合によってはそれよりも高速であり、後者よりも精度が高いことを示しています。これに加えて、エンドツーエンドの大規模モデルのサポートもあり、オープンソース化され、DeepSpeed などの深層学習推論フレームワークに統合されています。この結果は、大規模モデルの高速化にも即座に影響します。このフレームワークでは、シングル カードを使用して Llama を実行すると、スループットはデュアル カードのスループットの 2.65 倍になります。 1つ
