大規模な言語モデルはコーディングには間違っていますか?
強化学習モデルは、精度、一貫性、ゲームの習熟、または 1 つの正解の発見が目標の場合、生成 AI に勝ります。
GPT-4 などの大規模な言語モデルは、非常に説得力のある高品質で滑らかで自然なテキストを生成できるため、優れています。悲しいことに、誇大宣伝も同様です。マイクロソフトの研究者たちは、マイクロソフトが資金提供した OpenAI GPT-4 モデルが「汎用人工知能の火花」を実証していると息を呑んで説明しています。
もちろん、Microsoft が幻覚傾向について言及していない限り、生成されたエラー テキストは間違っているはずです。 GPT はチェスや囲碁などのゲームや数学が苦手で、作成するコードにはエラーや微妙な抜け穴がある可能性があります。
これは、大規模な言語モデルがすべて誇大広告であるという意味ではありません。他のテクノロジーとの違いを誇張することなく、生成人工知能 (GenAI) について議論するには、いくつかの新しい角度が必要です。
IEEESpectrum の記事で詳しく説明されているように、OpenAI の Ilya Sutskever などの一部の専門家は、人間のフィードバックによる強化学習を追加することで LLM 錯覚を排除できると考えています。しかし、Meta の Yann LeCun や Geoff Hinton (最近 Google を退職) のような人たちは、大規模な言語モデルのもっと根本的な欠陥が影響していると考えています。どちらも、大規模な言語モデルには、言語が記述する根本的な現実を理解するために重要な非言語的知識が欠けていると考えられています。
Diffblue CEO の Mathew Lodge 氏は、より良いソリューションがあるとインタビューで指摘しました。同氏は、「小型、高速、低コストで実行できる強化学習モデルは、ゲームのプレイからコードの作成に至るまで、さまざまなタスクにおいて数千億のパラメータを持つ大規模な言語モデルを簡単に打ち負かすことができます。」
私たちは AI の金塊を間違った場所に探しているのでしょうか?
ロッジが言っているのは、生成 AI には確かに用途があるが、おそらく私たちはそれを強制的に導入しようとしているということです。強化学習にはあまり適していない分野です。ゲームを例に考えてみましょう。
チェスのグランドマスターである Levy Rozman 氏は、ChatGPT (チャットベースの人工知能) と対戦するビデオを投稿しました。このモデルは、自身の作品をキャプチャするなど、一連のばかげた違法な行動をとりました。最高のオープンソース チェス ソフトウェア (Stockfish はニューラル ネットワークをまったく使用していません) では、大規模な言語モデルでは正当な手を見つけることができないため、ChatGPT は 10 手以内で勝つことができます。これは、大規模な言語モデルが一般的な人工知能の主張にはるかに及ばないことを証明しており、これは特別な例ではありません。
強化学習アルゴリズムにより、Google AlphaGo は現在最もパフォーマンスの高い囲碁人工知能です。強化学習は、問題に対するさまざまな解決策を生成し、それらを試し、その結果を使用して次の提案を改善し、最良の結果を見つけるためにこのプロセスを何千回も繰り返すことによって機能します。
AlphaGo の場合、AI はさまざまな手を試し、これが良い手であるかどうか、そしてこの局面からゲームに勝つ可能性が高いかどうかを予測します。フィードバックを使用して有望な一連の動きを「追跡」し、他の可能な動きを生成します。この効果は、可能な動きを検索することです。
このプロセスは確率的検索と呼ばれます。多くの手がありますが、すべてを試す必要はありませんが、辛抱強く、最善の手が見つかる可能性のある領域を探すことができます。これはゲームに最適です。 AlphaGoは過去に囲碁の達人を破ったことがある。 AlphaGo は絶対確実というわけではありませんが、現在利用可能な最高の大規模言語モデルよりも優れたパフォーマンスを発揮します。
確率と精度
支持者は、大規模な言語モデルが他の種類の人工知能に比べて大幅に遅れているという証拠があるにもかかわらず、も徐々に良くなっていきます。しかし、この考えを受け入れるには、なぜ彼らがこの種のタスクでより優れたパフォーマンスを発揮するのかを理解する必要があるとロッジ氏は指摘します。この問題が難しい理由は、GPT-4が特定の合図にどのように反応するかを正確に予測できる人がいないからだ、と同氏は続けた。このパターンは人間には説明できません。これが「『ジャストインタイムエンジニアリング』が存在しない理由だ」と同氏は考えており、AI研究者にとって、大規模な言語モデルの「創発的特性」が存在することを証明すること、ましてや予測することは困難でもあると強調する。彼ら。
最良の議論は帰納法であると言えます。 GPT-4 はサイズが大きいため、一部の言語タスクでは GPT-3 よりも優れています。したがって、より大きなモデルの方が良いでしょう。
ロッジの見解では、GPT-4 は GPT-3 が直面する課題をまだ克服する必要があるため、問題が存在します。その 1 つは数学です。GPT-4 は加算演算では GPT-3 よりも優れていますが、乗算やその他の数学演算では依然としてボトルネックがあります。
言語モデルのサイズを大きくしても、これらの問題は魔法のように解決されるわけではありません。OpenAI によれば、モデルを大きくすることは解決策ではありません。その理由は、OpenAI フォーラムが指摘しているように、大規模な言語モデルの基本的な性質にあります:「大規模な言語モデルは本質的に確率的であり、トレーニング データで観察されるパターンに基づいて可能な出力を生成することによって動作します。数学と物理の問題において、単一の正解が見つかる可能性は低いです。"
人工知能のプロセスでは、強化学習によって駆動される方法は、目標を追求するプロセスであるため、より正確な結果を生み出すことができます。強化学習では、目的の目標を達成するために、目標に最も近い最適な答えを繰り返し見つけます。ロッジ氏は、大規模な言語モデル コースは「反復したり、目標を見つけたりするように設計されていません。1 回または数回、『十分な』答えを与えるように設計されています。」
A " 「ワンショット」の回答は、モデルによって生成される最初の回答であり、プロンプト内の一連の単語を予測することによって取得されます。 「少数ショット学習」には、より適切な予測を生成するのに役立つ追加のサンプルまたはキューをモデルに提供することが含まれます。大規模な言語モデルでは、より良い答えが得られる可能性を高めるために、ある程度のランダム性が追加される (つまり、「ランダム化」される) こともよくあるため、同じ質問に対して異なる答えが返されます。
大規模言語モデルの世界が強化学習を無視しているわけではありません。 GPT-4 は、「強化学習と人間によるフィードバック」(RLHF) を組み合わせたものです。人間のオペレーターによってトレーニングされたコア モデルは特定の回答を優先しますが、これはモデルが最初に生成した回答を根本的に変更するものではありません。ロッジ氏は、大規模な言語モデルでは、「ウェイン・グレツキーは氷が好きです...」という文のギャップを埋めるために次のオプションが提供される可能性があると指摘しました。
1. ウェイン・グレツキーはアイスクリームが大好きです。
2. ウェイン・グレツキーはアイスホッケーが大好きです。
3. ウェイン・グレツキーは氷上の釣りが大好きです。
4. ウェイン・グレツキーはスケートが大好きです。
5. ウェイン・グレツキーはアイスワインが好きです。
人間のオペレーターが答えをランク付けし、アイスクリームの幅広い魅力にもかかわらず、この伝説的なカナダのホッケー選手はアイスホッケーとスケートを好んだという結論に達した可能性があります。モデルのトレーニングには、人間によるランキングと人間が書いた応答が使用されます。 GPT-4 はウェイン・グレツキーの好みを正確に知っているふりをするのではなく、求められたときに可能な限り最善の仕事をするだけであることに注意してください。
最後に、大規模な言語モデルは、精度や一貫性が高くなるように設計されていません。精度と決定論的な動作の間には、一般性と引き換えにトレードオフの関係があります。ロッジ氏にとって、これはすべて、AI を大規模に適用する場合、強化学習が生成 AI に勝るということを意味します。
強化学習をソフトウェアに適用する
ソフトウェア開発についてはどうですか? 私が書いているように、GenAI はすでに GitHubCopilot やAmazonCodeWhisperer 開発者の生産性を向上させるための機会が提供されます。これは憶測ではなく、実際に起こったことです。これらのツールは、統合開発環境の挿入ポイントの前後のコードに基づいて、次にどのコードが表示される可能性があるかを予測できます。
実際、Visual Studio Magazine の David Ramel 氏が述べているように、最新バージョンの Copilot はすでに Java コードの 61% を生成しています。これによってソフトウェア開発者の作業が軽減されるのではないかと心配する人は、これらのツールでは、コードが正しくコンパイルされて実行されるように完了を確認し編集するために、人間による入念な監視が必要であることを覚えておいてください。オートコンプリートは初期の頃から IDE の定番であり、Copilot やその他のコード ジェネレーターによってさらに便利になります。大規模な自律コーディングは異なります。実際、Java コードの 61% を記述する必要があります。
しかし、強化学習により、大規模な正確な自律コーディングが可能になるとロッジ氏は述べています。もちろん、彼はこれを言うことに既得権益を持っています。2019 年、彼の会社 Diffblue は、強化学習に基づく商用単体テスト作成ツールである Cover をリリースしました。 Cover は人間の介入なしで完全な単体テスト スイートを作成するため、複雑でエラーが発生しやすいタスクを大規模に自動化できます。
ロッジには偏見がありますか? それは間違いありません。彼は、ソフトウェア開発において強化学習が GenAI よりも優れているという信念を正当化する多くの経験を持っています。現在、Diffblue は強化学習を使用して、考えられるすべてのテストメソッドの空間を検索し、各メソッドのテストコードを自動的に作成し、作成されたテストの中から最適なテストを選択します。強化学習の報酬関数は、テスト カバレッジや美観などのさまざまな基準に基づいており、その基準の 1 つに人間が作成したコーディング スタイルに準拠することも含まれます。このツールは、平均 1 秒で各メソッドのテストを作成します。
ロッジは、誰も理解できないプログラムの 10,000 個の単体テストを自動的に作成することが目標であれば、強化学習が唯一の本当の解決策であると信じています。 「大規模な言語モデルは競合できません。人間には、この規模で言語モデルを効果的に監視してコードを修正する方法がありません。また、モデルをより大きく複雑にしても、この問題は解決されません。」
結論: 大規模言語モデルの最も強力な点は、それが汎用言語プロセッサであることです。彼らは、明示的に訓練されていない言語タスクを実行できます。これは、彼らがコンテンツ生成 (コピーライティング) やその他多くの仕事で優れた仕事をできることを意味します。ロッジ氏は、「しかし、だからといって大規模な言語モデルが人工知能モデルの代替になるわけではありません。人工知能モデルは多くの場合、強化学習に基づいており、より正確で、より一貫性があり、大規模に使用できます。」
以上が大規模な言語モデルはコーディングには間違っていますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









WordPress Webサイトを管理する場合、インストール、更新、マルチサイト変換などの複雑な操作に遭遇することがよくあります。これらの操作は時間がかかるだけでなく、エラーになりやすく、ウェブサイトを麻痺させます。 WP-CRIコアコマンドと作曲家を組み合わせることで、これらのタスクを大幅に簡素化し、効率と信頼性を向上させることができます。この記事では、作曲家を使用してこれらの問題を解決し、WordPress管理の利便性を向上させる方法を紹介します。

開発プロセス中に、コードの正確性と保守性を確保するために、PHPコードで構文チェックを実行する必要があることがよくあります。ただし、プロジェクトが大きい場合、シングルスレッドの構文チェックプロセスが非常に遅くなる可能性があります。最近、私は自分のプロジェクトでこの問題に遭遇しました。複数の方法を試した後、最終的にライブラリがOvertrue/Phplintを見つけました。これにより、並列処理によりコード検査の速度が大幅に向上します。

Laravel Developmentでは、特にマルチレベルの属する関係に関しては、複雑なモデル関係に対処することは常に課題でした。最近、私はこの問題に、従来のHasManyThrough関係がニーズを満たすことができず、データクエリが複雑で非効率的になることになっているマルチレベルモデル関係を扱うプロジェクトでこの問題に遭遇しました。いくつかの探索の後、私は図書館がStaudenmeir/属していることを発見しました。

SQLステートメントの解析を必要とするプロジェクトを開発するとき、私はトリッキーな問題に遭遇しました:MySQLのSQLステートメントを効率的に解析し、重要な情報を抽出する方法。多くの方法を試した後、Greenlion/PHP-SQL-Parserライブラリが私のニーズを完全に解決できることがわかりました。

Webサイトの開発の過程で、ページの読み込みを改善することは常に私の最優先事項の1つです。かつて、Webサイトのパフォーマンスを向上させるために、Miniifyライブラリを使用してCSSファイルとJavaScriptファイルを圧縮およびマージしようとしました。しかし、私は使用中に多くの問題と課題に遭遇しました。最終的には、Miniifyがもはや最良の選択ではない可能性があることに気付きました。以下では、私の経験と、Composerを通じてMinifyをインストールして使用する方法を共有します。

フロントエンドプロジェクトを開発する際には、トリッキーな問題があります。CSSプロパティにブラウザプレフィックスを手動で追加して、互換性を確保する必要があります。これは時間がかかるだけでなく、エラーが発生しやすいものでもあります。いくつかの調査の後、私はPadaliyajay/PHP-Autoprefixerライブラリを発見しました。

Magento2拡張機能を開発するとき、私は共通の問題に遭遇しました:コードの品質がMagentoの基準を満たすことを保証する方法。これは、コードの保守性に影響するだけでなく、プロジェクトの全体的な安定性とパフォーマンスにも影響します。いくつかの調査の後、Magento/Magento-Coding-Standard Libraryを見つけました。これは、Magento2プロジェクトのphpcodesnifferルールを提供して、開発者がコードをすばやくチェックして最適化するのに役立つようにします。

PHPプロジェクトを扱う際には深刻な問題があります。Phar://ストリーム処理にはセキュリティの脆弱性があり、悪意のあるコードの実行につながる可能性があります。いくつかの研究と試験の後、私は効果的な解決策を見つけました - Typo3/Phar-Stream-Wrapperライブラリを使用しています。このライブラリは、私のセキュリティの問題を解決するだけでなく、柔軟なインターセプターメカニズムを提供し、PhARファイルの管理をより安全で制御可能にします。
