強化学習モデルは、精度、一貫性、ゲームの習熟、または 1 つの正解の発見が目標の場合、生成 AI に勝ります。
GPT-4 などの大規模な言語モデルは、非常に説得力のある高品質で滑らかで自然なテキストを生成できるため、優れています。悲しいことに、誇大宣伝も同様です。マイクロソフトの研究者たちは、マイクロソフトが資金提供した OpenAI GPT-4 モデルが「汎用人工知能の火花」を実証していると息を呑んで説明しています。
もちろん、Microsoft が幻覚傾向について言及していない限り、生成されたエラー テキストは間違っているはずです。 GPT はチェスや囲碁などのゲームや数学が苦手で、作成するコードにはエラーや微妙な抜け穴がある可能性があります。
これは、大規模な言語モデルがすべて誇大広告であるという意味ではありません。他のテクノロジーとの違いを誇張することなく、生成人工知能 (GenAI) について議論するには、いくつかの新しい角度が必要です。
IEEESpectrum の記事で詳しく説明されているように、OpenAI の Ilya Sutskever などの一部の専門家は、人間のフィードバックによる強化学習を追加することで LLM 錯覚を排除できると考えています。しかし、Meta の Yann LeCun や Geoff Hinton (最近 Google を退職) のような人たちは、大規模な言語モデルのもっと根本的な欠陥が影響していると考えています。どちらも、大規模な言語モデルには、言語が記述する根本的な現実を理解するために重要な非言語的知識が欠けていると考えられています。
Diffblue CEO の Mathew Lodge 氏は、より良いソリューションがあるとインタビューで指摘しました。同氏は、「小型、高速、低コストで実行できる強化学習モデルは、ゲームのプレイからコードの作成に至るまで、さまざまなタスクにおいて数千億のパラメータを持つ大規模な言語モデルを簡単に打ち負かすことができます。」
ロッジが言っているのは、生成 AI には確かに用途があるが、おそらく私たちはそれを強制的に導入しようとしているということです。強化学習にはあまり適していない分野です。ゲームを例に考えてみましょう。
チェスのグランドマスターである Levy Rozman 氏は、ChatGPT (チャットベースの人工知能) と対戦するビデオを投稿しました。このモデルは、自身の作品をキャプチャするなど、一連のばかげた違法な行動をとりました。最高のオープンソース チェス ソフトウェア (Stockfish はニューラル ネットワークをまったく使用していません) では、大規模な言語モデルでは正当な手を見つけることができないため、ChatGPT は 10 手以内で勝つことができます。これは、大規模な言語モデルが一般的な人工知能の主張にはるかに及ばないことを証明しており、これは特別な例ではありません。
強化学習アルゴリズムにより、Google AlphaGo は現在最もパフォーマンスの高い囲碁人工知能です。強化学習は、問題に対するさまざまな解決策を生成し、それらを試し、その結果を使用して次の提案を改善し、最良の結果を見つけるためにこのプロセスを何千回も繰り返すことによって機能します。
AlphaGo の場合、AI はさまざまな手を試し、これが良い手であるかどうか、そしてこの局面からゲームに勝つ可能性が高いかどうかを予測します。フィードバックを使用して有望な一連の動きを「追跡」し、他の可能な動きを生成します。この効果は、可能な動きを検索することです。
このプロセスは確率的検索と呼ばれます。多くの手がありますが、すべてを試す必要はありませんが、辛抱強く、最善の手が見つかる可能性のある領域を探すことができます。これはゲームに最適です。 AlphaGoは過去に囲碁の達人を破ったことがある。 AlphaGo は絶対確実というわけではありませんが、現在利用可能な最高の大規模言語モデルよりも優れたパフォーマンスを発揮します。
支持者は、大規模な言語モデルが他の種類の人工知能に比べて大幅に遅れているという証拠があるにもかかわらず、も徐々に良くなっていきます。しかし、この考えを受け入れるには、なぜ彼らがこの種のタスクでより優れたパフォーマンスを発揮するのかを理解する必要があるとロッジ氏は指摘します。この問題が難しい理由は、GPT-4が特定の合図にどのように反応するかを正確に予測できる人がいないからだ、と同氏は続けた。このパターンは人間には説明できません。これが「『ジャストインタイムエンジニアリング』が存在しない理由だ」と同氏は考えており、AI研究者にとって、大規模な言語モデルの「創発的特性」が存在することを証明すること、ましてや予測することは困難でもあると強調する。彼ら。
最良の議論は帰納法であると言えます。 GPT-4 はサイズが大きいため、一部の言語タスクでは GPT-3 よりも優れています。したがって、より大きなモデルの方が良いでしょう。
ロッジの見解では、GPT-4 は GPT-3 が直面する課題をまだ克服する必要があるため、問題が存在します。その 1 つは数学です。GPT-4 は加算演算では GPT-3 よりも優れていますが、乗算やその他の数学演算では依然としてボトルネックがあります。
言語モデルのサイズを大きくしても、これらの問題は魔法のように解決されるわけではありません。OpenAI によれば、モデルを大きくすることは解決策ではありません。その理由は、OpenAI フォーラムが指摘しているように、大規模な言語モデルの基本的な性質にあります:「大規模な言語モデルは本質的に確率的であり、トレーニング データで観察されるパターンに基づいて可能な出力を生成することによって動作します。数学と物理の問題において、単一の正解が見つかる可能性は低いです。"
人工知能のプロセスでは、強化学習によって駆動される方法は、目標を追求するプロセスであるため、より正確な結果を生み出すことができます。強化学習では、目的の目標を達成するために、目標に最も近い最適な答えを繰り返し見つけます。ロッジ氏は、大規模な言語モデル コースは「反復したり、目標を見つけたりするように設計されていません。1 回または数回、『十分な』答えを与えるように設計されています。」
A " 「ワンショット」の回答は、モデルによって生成される最初の回答であり、プロンプト内の一連の単語を予測することによって取得されます。 「少数ショット学習」には、より適切な予測を生成するのに役立つ追加のサンプルまたはキューをモデルに提供することが含まれます。大規模な言語モデルでは、より良い答えが得られる可能性を高めるために、ある程度のランダム性が追加される (つまり、「ランダム化」される) こともよくあるため、同じ質問に対して異なる答えが返されます。
大規模言語モデルの世界が強化学習を無視しているわけではありません。 GPT-4 は、「強化学習と人間によるフィードバック」(RLHF) を組み合わせたものです。人間のオペレーターによってトレーニングされたコア モデルは特定の回答を優先しますが、これはモデルが最初に生成した回答を根本的に変更するものではありません。ロッジ氏は、大規模な言語モデルでは、「ウェイン・グレツキーは氷が好きです...」という文のギャップを埋めるために次のオプションが提供される可能性があると指摘しました。
1. ウェイン・グレツキーはアイスクリームが大好きです。
2. ウェイン・グレツキーはアイスホッケーが大好きです。
3. ウェイン・グレツキーは氷上の釣りが大好きです。
4. ウェイン・グレツキーはスケートが大好きです。
5. ウェイン・グレツキーはアイスワインが好きです。
人間のオペレーターが答えをランク付けし、アイスクリームの幅広い魅力にもかかわらず、この伝説的なカナダのホッケー選手はアイスホッケーとスケートを好んだという結論に達した可能性があります。モデルのトレーニングには、人間によるランキングと人間が書いた応答が使用されます。 GPT-4 はウェイン・グレツキーの好みを正確に知っているふりをするのではなく、求められたときに可能な限り最善の仕事をするだけであることに注意してください。
最後に、大規模な言語モデルは、精度や一貫性が高くなるように設計されていません。精度と決定論的な動作の間には、一般性と引き換えにトレードオフの関係があります。ロッジ氏にとって、これはすべて、AI を大規模に適用する場合、強化学習が生成 AI に勝るということを意味します。
ソフトウェア開発についてはどうですか? 私が書いているように、GenAI はすでに GitHubCopilot やAmazonCodeWhisperer 開発者の生産性を向上させるための機会が提供されます。これは憶測ではなく、実際に起こったことです。これらのツールは、統合開発環境の挿入ポイントの前後のコードに基づいて、次にどのコードが表示される可能性があるかを予測できます。
実際、Visual Studio Magazine の David Ramel 氏が述べているように、最新バージョンの Copilot はすでに Java コードの 61% を生成しています。これによってソフトウェア開発者の作業が軽減されるのではないかと心配する人は、これらのツールでは、コードが正しくコンパイルされて実行されるように完了を確認し編集するために、人間による入念な監視が必要であることを覚えておいてください。オートコンプリートは初期の頃から IDE の定番であり、Copilot やその他のコード ジェネレーターによってさらに便利になります。大規模な自律コーディングは異なります。実際、Java コードの 61% を記述する必要があります。
しかし、強化学習により、大規模な正確な自律コーディングが可能になるとロッジ氏は述べています。もちろん、彼はこれを言うことに既得権益を持っています。2019 年、彼の会社 Diffblue は、強化学習に基づく商用単体テスト作成ツールである Cover をリリースしました。 Cover は人間の介入なしで完全な単体テスト スイートを作成するため、複雑でエラーが発生しやすいタスクを大規模に自動化できます。
ロッジには偏見がありますか? それは間違いありません。彼は、ソフトウェア開発において強化学習が GenAI よりも優れているという信念を正当化する多くの経験を持っています。現在、Diffblue は強化学習を使用して、考えられるすべてのテストメソッドの空間を検索し、各メソッドのテストコードを自動的に作成し、作成されたテストの中から最適なテストを選択します。強化学習の報酬関数は、テスト カバレッジや美観などのさまざまな基準に基づいており、その基準の 1 つに人間が作成したコーディング スタイルに準拠することも含まれます。このツールは、平均 1 秒で各メソッドのテストを作成します。
ロッジは、誰も理解できないプログラムの 10,000 個の単体テストを自動的に作成することが目標であれば、強化学習が唯一の本当の解決策であると信じています。 「大規模な言語モデルは競合できません。人間には、この規模で言語モデルを効果的に監視してコードを修正する方法がありません。また、モデルをより大きく複雑にしても、この問題は解決されません。」
結論: 大規模言語モデルの最も強力な点は、それが汎用言語プロセッサであることです。彼らは、明示的に訓練されていない言語タスクを実行できます。これは、彼らがコンテンツ生成 (コピーライティング) やその他多くの仕事で優れた仕事をできることを意味します。ロッジ氏は、「しかし、だからといって大規模な言語モデルが人工知能モデルの代替になるわけではありません。人工知能モデルは多くの場合、強化学習に基づいており、より正確で、より一貫性があり、大規模に使用できます。」
以上が大規模な言語モデルはコーディングには間違っていますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。