Microsoft の最新の研究は、プロンプト プロジェクト -
追加の微調整や専門家による計画を行わなくても、GPT-4 はプロンプトだけで「エキスパート」になることができることを再度証明しています。
彼らが提案した最新のプロンプト戦略 Medprompt を使用して、医療専門家の分野では、GPT-4 は MultiMed QA の 9 つのテスト セットで最高の結果を達成しました。
MedQA データセット (米国医師免許試験問題) において、Medprompt は GPT-4 の精度を初めて 90% を超え、 は BioGPT および Med-PaLM# を上回りました。 ## 多数の微調整方法を待っています。
GPT-4 は業界を変えることができるテクノロジーですが、まだ遠いです離れています プロンプトの制限に達しておらず、微調整の制限にも達していません。
固定であるため、例の代表性と幅広さについては高い要件が求められます。
以前の方法は、ドメインの専門家が手動でサンプルを作成するというものでしたですが、それでも、専門家が厳選した固定の少数サンプルのサンプルが各タスクを代表するものであるという保証はありません。
マイクロソフトの研究者は、動的少数ショット例の方法を提案しました。したがって、アイデアは、タスク トレーニング セットを少数ショット例のソースとして使用できるということです。が十分に大きい場合、さまざまなタスク入力に対してさまざまな数ショットの例を選択できます。 具体的な操作に関しては、研究者らはまず text-embedding-ada-002 モデルを使用して、各トレーニング サンプルとテスト サンプルのベクトル表現を生成しました。次に、各テスト サンプルについて、ベクトルの類似性を比較することにより、最も類似した k 個のサンプルがトレーニング サンプルから選択されます。微調整方法と比較して、動的少数ショット選択はトレーニングを利用します。ただし、モデルパラメータの大規模な更新は必要ありません。 自己生成の思考連鎖思考連鎖 (CoT) メソッドは、モデルに段階的に思考させ、一連の中間推論ステップを生成させるメソッドですこれまでの方法は専門家に依存していました 迅速な思考連鎖を備えたいくつかの例を手動で作成しましたここで、研究者らは、次のプロンプトを使用して、GPT-4 にトレーニング例の思考連鎖を生成するよう簡単に依頼できることを発見しました:
しかし、研究者らは、この自動的に生成された思考チェーンには間違った推論ステップが含まれている可能性があるとも指摘したため、効果的にエラーを減らすことができるフィルターとして検証タグを設定しました。
Med-PaLM 2 モデルの専門家によって手作りされた思考チェーンの例と比較して、GPT-4 によって生成された思考チェーンの基本原理は長く、段階的な推論ロジックは次のとおりです。よりきめ細かい。
GPT-4 は、多肢選択問題を扱うときにバイアスがある可能性があります。つまり、質問の内容に関係なく、常に A を選択するか、常に B を選択する傾向があります。オプションは、これは位置の偏差です。
この問題を解決するために、研究者たちは元のオプションの順序を並べ替えて影響を軽減することにしました。たとえば、元のオプションの順序は ABCD ですが、BCDA、CDAB などに変更できます。
次に、各ラウンドで異なるオプションの順序を使用して、GPT-4 に複数のラウンドの予測を実行させます。これにより、GPT-4 はオプションの内容を考慮するように「強制」されます。
最後に、複数ラウンドの予測の結果に投票し、最も一貫性があり正しい選択肢を選択します。
上記のプロンプト戦略を組み合わせたものが Medprompt です。テスト結果を見てみましょう。
このテストでは、研究者は MultiMed QA 評価ベンチマークを使用しました。
Medprompt プロンプト戦略を使用する GPT-4 は、MultiMedQA の 9 つのベンチマーク データ セットすべてで最高スコアを達成し、Flan-PaLM 540B および Med-PaLM 2 よりも優れています。 。
さらに、研究者らは、「アイズオフ」データに対する Medprompt 戦略のパフォーマンスについても議論しました。いわゆる「アイズオフ」データとは、トレーニングまたは最適化プロセス中にモデルが一度も見たことのないデータを指し、モデルがトレーニング データを過学習しているかどうかをテストするために使用されます
論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/pdf/2311.16452.pdf
以上がMicrosoft は、「プロンプト プロジェクト」だけで GPT-4 を医療専門家に変えました。十数種類の高度に微調整されたモデルにより、プロによるテスト精度が初めて 90% を超えましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。