#機械がこの質問について考えることができるかどうかは、潜水艦が泳げるかどうかを尋ねるようなものです。 ——Dijkstra
ChatGPT がリリースされるずっと前から、業界は大規模モデルによってもたらされる変化の匂いをすでに感じていました。 昨年 10 月 14 日、サンタフェ研究所のメラニー・ミッチェル教授とデビッド・C・クラカウアー教授は、arXiv 上で大規模な事前研究が行われるかどうかに関する議論を包括的に調査したレビューを発表しました。訓練された言語モデルは言語を理解できるため、この記事では賛成派と反対派の議論、およびこれらの議論から導き出される広範な知能科学における重要な問題について説明しています。 論文リンク: https://arxiv.org/pdf/2210.13966.pdf出版ジャーナル: 「Academy of the米国科学アカデミー新聞」 (PNAS) 長すぎて読むことができません: 「理解」を裏付ける主な議論は次のとおりです。言語モデルは、完了する前に理解を必要とする多くの一見タスクを完了できます。 「理解」に対する主な議論は、人間の観点からすると、プロンプト間の微妙な変化を理解できないなど、大規模な言語モデルの理解は非常に脆弱であり、言語モデルには現実世界が存在しないということです。人生経験 彼らの知識を検証するために、マルチモーダル言語モデルはこの問題を軽減する可能性があります。 最も重大な問題は、「理解とは何か」の信頼できる定義をまだ誰も持っておらず、人間の言語モデルの理解能力をテストする方法がわからないことです。このテストは、大規模な言語モデルの理解をテストするのには必ずしも適しているわけではありません。 つまり、大規模な言語モデルは言語を理解できますが、その方法はおそらく人間とは異なるでしょう。 研究者らは、さまざまな種類の理解を深く研究し、さまざまな理解モードの利点と限界を見つけ出し、同時にその結果を統合する新しい知能科学を開発できると信じています。さまざまな理解形式、認知の違いによって生み出されます。 # この論文の筆頭著者であるメラニー ミッチェルは、サンタフェ研究所の教授です。彼女は 1990 年に博士号を取得しました ミシガン大学を卒業し、彼女の指導者はホフスタッター (『ゲーデル、エッシャー、バッハ: さまざまな巨匠のコレクション』の著者) とジョン ホランドでした 彼女の主な研究方向は類推推論、複雑なものですシステム、遺伝的アルゴリズム、セル。 「理解」とは一体何でしょうか? 「理解とは何か」は、哲学者、認知科学者、教育者を常に悩ませてきました。研究者は、「理解力」の基準として人間や他の動物をよく使用します。 最近まで、大規模な人工知能システム、特に大規模言語モデル (LLM) の出現に伴い、人工知能コミュニティでは激しい議論が巻き起こりました。つまり、機械は自然言語を理解し、言語によって記述される物理的および社会的状況を理解できるようになったと言えるでしょうか。 これは純粋に学術的な議論ではありません。機械が世界を理解する程度と方法は、車の運転、病気の診断、介護などのタスクを人間が AI にどの程度信頼できるかに影響します。高齢者や子供の教育など、人間が関連するタスクに対して強力かつ透明性のある行動を取れるようにするためです。 現在の議論は、インテリジェントシステム、特に「統計的相関」と「因果メカニズム」に依存するメンタルモデルにおける理解について、学術コミュニティがどのように考えているかにいくつかの違いがあることを示しています。メンタル モデル)、違いはより明らかです。 しかし、人工知能研究コミュニティでは、機械理解について依然として一般的なコンセンサスが存在します。つまり、人工知能システムは、多くの特定のタスクにおいて一見知的な動作を示しますが、理解できるわけではありません。人間と同じようにデータを処理します。 たとえば、顔認識ソフトウェアは、顔が体の一部であることを理解しておらず、社会的相互作用における顔の表情の役割も理解しておらず、人間がどのように行動するかを理解していません。ほぼ無限の方法で、顔の概念を使用します。 同様に、音声テキスト変換プログラムや機械翻訳プログラムは、処理する言語を理解できません。また、自動運転システムは、ドライバーや歩行者が事故を避けるために使用する微妙なアイコンタクトやボディランゲージを理解できません。 。 実際、これらの AI システムの脆弱性 (予測不可能なエラーや堅牢な一般化の欠如) がよく引用されるのは、AI の理解を評価する際の重要な指標です。 過去数年にわたって、人工知能の分野における大規模言語モデル (LLM) の聴衆と影響力は急増しており、また、人工知能の見通しについて一部の人々の見方を変えてきました。機械による言語の理解。
大規模な事前トレーニング モデルは、基礎モデルとも呼ばれ、数十億から数兆のパラメータ (重み) を持つディープ ニューラル ネットワークであり、大規模な自然言語コーパス (オンライン テキスト、オンライン ブックなどを含む) で使用されます。 「事前トレーニング」を実行した後。
トレーニング中のモデルのタスクは、入力文の欠落部分を予測することであるため、この方法は「自己教師あり学習」とも呼ばれ、結果として得られるネットワークは複雑になります。統計モデル を使用すると、トレーニング データ内の単語やフレーズが互いにどのように関連しているかを取得できます。
このモデルは、自然言語を生成するために使用でき、特定の自然言語タスクに合わせて微調整したり、「ユーザーの意図」によりよく一致するようにさらにトレーニングしたりできますが、専門家以外の人にとっては言語がどのように正確であるかモデルがこれらのタスクを達成できるかどうかは、科学者にとって謎のままです。
ニューラル ネットワークの内部動作はほとんど不透明であり、ニューラル ネットワークを構築する研究者でさえ、この規模のシステムに対する直感には限界があります。
神経科学者の Terrence Sejnowski は、LLM の出現を次のように説明しています。##あるしきい値を超えると、まるで宇宙人が突然現れて、恐ろしいほど人間的な方法で私たちとコミュニケーションをとることができるようです。現時点で明らかなことが 1 つだけあります。大きな言語モデルは人間ではなく、その行動のいくつかの側面は知性があるように見えますが、もし人間の知性ではないとしたら、その知性の性質は何でしょうか?
#大規模な言語モデルのパフォーマンスは衝撃的ですが、最先端の LLM は脆弱性や人的ミス以外のミスが依然として発生しやすいです。 ただし、パラメータの数とトレーニング コーパスのサイズが拡大することで、ネットワークのパフォーマンスが大幅に向上していることがわかり、この分野の一部の研究者もこれによって導かれています。十分な大きさのネットワークとトレーニング データセット、言語モデル (マルチモーダル バージョン)、そしておそらくマルチモーダル バージョンが存在する限り、人間レベルの知性と理解につながると主張することはできません。 人工知能の新しいスローガンが登場しました: 必要なのはスケールだけです! この声明は、人工知能研究コミュニティにおける大規模な言語モデルに関する議論も反映しています: あるグループは、言語モデルが真に理解できると信じています。言語 を習得しており、一般的な方法で推論することができます(ただし、まだ人間のレベルには達していません)。 たとえば、Google の LaMDA システムはテキストで事前トレーニングされ、その後会話タスクで微調整されるため、非常に幅広いドメインのユーザーと会話できるようになります。理解陣営を支持する VS 理解陣営に反対する
もう一方の学派は、GPT-3 や LaMDA などの大規模な事前トレーニング済みモデルは、言語出力がどれほど流暢であっても、これらのモデルには実践的な経験がなく、世界のメンタルモデルがないため、理解することはできません。
言語モデルは、言語の背後にある意味を学習するのではなく、言語の形式を学習するために、大規模なテキスト コレクション内の単語を予測するようにのみトレーニングされます。 言語のみで訓練されたシステムは、たとえこれから宇宙が滅亡するまで訓練されたとしても、人間の知性に近づくことは決してありません。これらのシステムは浅いレベルの理解にのみ運命づけられており、人間に見られる全身的な思考には決して近づけないことは明らかです。 別の学者は、これらのシステムについて話すとき、知能、エージェント、ひいては拡張についての理解は間違っており、言語モデルは実際には人間の知識の圧縮されたライブラリであると信じています。エージェントよりも図書館や百科事典。 たとえば、人間は身体を持っているので、笑わせるための「かゆみ」が何を意味するかを知っています。言語モデルは「かゆみ」という言葉を使用できますが、明らかにこの感覚を経験したことがありません。 「かゆみ」を理解すると、ある単語が別の単語ではなく感情にマッピングされます。 「LLM は理解できない」側の人々は、大規模な言語モデルの流暢さは驚くべきことですが、その驚きはこれらのモデルの統計的相関に対する自信の欠如を反映していると主張します。それは、スケール上で何が生成できるかについての直観の欠如です。 自然言語処理コミュニティの現役研究者を対象とした 2022 年の調査報告書では、この議論における明確な意見の相違が示されています。 480 人の回答者に、LLM は原則として言語を理解できる、つまり「十分な量の言語が存在する限り、テキストのみで訓練された生成言語モデル」という声明に同意するかどうかを尋ねたところ、 調査結果は半数 (51%) が同意し、残りの半分 (49%) が同意しませんでした。」 。「LLM の理解」議論の双方がそれぞれの見解を裏付ける十分な直観を持っていますが、現在利用可能な認知科学に基づいた理解に関する洞察があります。 LLM に関するこのような質問に答えます。
実際、一部の研究者は心理テスト (もともと人間の理解と推論メカニズムを評価するために設計された) を LLM に適用し、場合によっては、LLM が実際に理論的に人間のように思考していることを発見しました。テストの反応や推論評価における人間のような能力とバイアス。
これらのテストは人間の汎化能力を評価するための信頼できる手段と考えられていますが、人工知能システムの場合はそうではない可能性があります。
大規模な言語モデルには、トレーニング データと入力内のトークンの間の相関関係を学習する特別な機能があり、この相関関係を使用して問題を解決できます。これとは対照的に、人間は、次のような凝縮された概念を使用します。彼らの実世界での経験。
人間向けに設計されたテストを LLM に適用する場合、結果の解釈は、これらのモデルには当てはまらない可能性のある人間の認知に関する仮定に依存する可能性があります。
進歩するには、科学者は、私たちが作り出した新しい形の「奇妙な」知能を含む、さまざまな種類の知能と理解のメカニズムを理解するための新しいベンチマークと検出方法を開発する必要があります。 、心のような存在」、そしていくつかの関連作業がすでに行われています。
モデルが大きくなり、より高機能なシステムが開発されるにつれて、LLM の理解をめぐる議論は、「理解」が意味のあるものになるように、「知能の科学を拡張する」必要性を浮き彫りにしています。人間にとっても機械にとっても。
神経科学者のテレンス・セジノウスキー氏は、LLMの知能に関する専門家のさまざまな意見は、自然知能に基づく古い考え方では十分ではないことを示していると指摘しています。
LLM と関連モデルが、前例のない規模で統計的相関を利用することで成功することができれば、おそらくそれらは、並外れた形式の超人的予測を達成できる「新しい理解の形式」とみなされる可能性があります。 DeepMind の AlphaZero および AlphaFold システムなどの機能は、それぞれチェスとタンパク質構造予測の分野に「エキゾチックな」形式の直観をもたらします。
したがって、近年、人工知能の分野では、とらえどころのない目標を追求する中で、新しい理解モード、おそらくまったく新しい概念を備えたマシンが作成されてきたと言えます。本質的な側面で進歩が見られるにつれて、これらの新しい概念はさらに充実していくでしょう。
広範なコーディング知識を必要とし、高いパフォーマンス要件を必要とする問題では、引き続き大規模な統計モデルの開発が促進される一方、限られた知識と強力な因果メカニズムを持つ問題では、理解が容易になります。人間の知性。
将来の課題は、さまざまな形の知能の詳細な理解を明らかにし、その長所と限界を識別し、これらの真に異なる認知モデルを統合する方法を学ぶための新しい科学的手法を開発することです。 。
参考文献:
https://www.pnas.org/doi/10.1073/pnas.2215907120
以上がなんという騒音でしょう! ChatGPT は言語を理解できますか? PNAS:まず「理解」とは何かを勉強しましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。