Microsoft の最新の研究は、プロンプト プロジェクト -
追加の微調整や専門家による計画を行わなくても、GPT-4 はプロンプトだけで「エキスパート」になることができることを再度証明しています。
彼らが提案した最新のプロンプト戦略 Medprompt を使用して、医療専門家の分野では、GPT-4 は MultiMed QA の 9 つのテスト セットで最高の結果を達成しました。
MedQA データセット (米国医師免許試験問題) において、Medprompt は GPT-4 の精度を初めて 90% を超え、 は BioGPT および Med-PaLM# を上回りました。 ## 多数の微調整方法を待っています。
研究者らはまた、Medprompt 手法は普遍的であり、医学に適用できるだけでなく、電気工学、機械学習、法律、その他の専攻にも拡張できると述べています。 この研究はX(旧Twitter)で共有されるとすぐに、多くのネチズンの注目を集めました。 ウォートン スクール教授のイーサン モリック氏、人工直観の著者カルロス E. ペレス氏などがこの情報を転送し、共有しました。 カルロス E. ペレス氏は、「優れたプロンプト戦略には多くの微調整が必要です」と呼びかけました。 一部のネチズンは、この予感は長い間ありましたが、今結果が出ているのを見るのは本当に素晴らしいです! 一部のネチズンはこれが本当に「過激」であると考えていますGPT-4 は業界を変えることができるテクノロジーですが、まだ遠いです離れています プロンプトの制限に達しておらず、微調整の制限にも達していません。プロンプト戦略を組み合わせてエキスパートに「変身」Medprompt は、3 つの魔法の武器を含む複数のプロンプト戦略を組み合わせたものです:
固定であるため、例の代表性と幅広さについては高い要件が求められます。
以前の方法は、ドメインの専門家が手動でサンプルを作成するというものでしたですが、それでも、専門家が厳選した固定の少数サンプルのサンプルが各タスクを代表するものであるという保証はありません。
マイクロソフトの研究者は、動的少数ショット例の方法を提案しました。したがって、アイデアは、タスク トレーニング セットを少数ショット例のソースとして使用できるということです。が十分に大きい場合、さまざまなタスク入力に対してさまざまな数ショットの例を選択できます。 具体的な操作に関しては、研究者らはまず text-embedding-ada-002 モデルを使用して、各トレーニング サンプルとテスト サンプルのベクトル表現を生成しました。次に、各テスト サンプルについて、ベクトルの類似性を比較することにより、最も類似した k 個のサンプルがトレーニング サンプルから選択されます。微調整方法と比較して、動的少数ショット選択はトレーニングを利用します。ただし、モデルパラメータの大規模な更新は必要ありません。 自己生成の思考連鎖思考連鎖 (CoT) メソッドは、モデルに段階的に思考させ、一連の中間推論ステップを生成させるメソッドですこれまでの方法は専門家に依存していました 迅速な思考連鎖を備えたいくつかの例を手動で作成しましたここで、研究者らは、次のプロンプトを使用して、GPT-4 にトレーニング例の思考連鎖を生成するよう簡単に依頼できることを発見しました:
しかし、研究者らは、この自動的に生成された思考チェーンには間違った推論ステップが含まれている可能性があるとも指摘したため、効果的にエラーを減らすことができるフィルターとして検証タグを設定しました。
Med-PaLM 2 モデルの専門家によって手作りされた思考チェーンの例と比較して、GPT-4 によって生成された思考チェーンの基本原理は長く、段階的な推論ロジックは次のとおりです。よりきめ細かい。
GPT-4 は、多肢選択問題を扱うときにバイアスがある可能性があります。つまり、質問の内容に関係なく、常に A を選択するか、常に B を選択する傾向があります。オプションは、これは位置の偏差です。
この問題を解決するために、研究者たちは元のオプションの順序を並べ替えて影響を軽減することにしました。たとえば、元のオプションの順序は ABCD ですが、BCDA、CDAB などに変更できます。
次に、各ラウンドで異なるオプションの順序を使用して、GPT-4 に複数のラウンドの予測を実行させます。これにより、GPT-4 はオプションの内容を考慮するように「強制」されます。
最後に、複数ラウンドの予測の結果に投票し、最も一貫性があり正しい選択肢を選択します。
上記のプロンプト戦略を組み合わせたものが Medprompt です。テスト結果を見てみましょう。
このテストでは、研究者は MultiMed QA 評価ベンチマークを使用しました。
Medprompt プロンプト戦略を使用する GPT-4 は、MultiMedQA の 9 つのベンチマーク データ セットすべてで最高スコアを達成し、Flan-PaLM 540B および Med-PaLM 2 よりも優れています。 。
さらに、研究者らは、「アイズオフ」データに対する Medprompt 戦略のパフォーマンスについても議論しました。いわゆる「アイズオフ」データとは、トレーニングまたは最適化プロセス中にモデルが一度も見たことのないデータを指し、モデルがトレーニング データを過学習しているかどうかをテストするために使用されます
#結果 GPT-4 と Medprompt 戦略の組み合わせは、複数の医療ベンチマーク データセットで良好なパフォーマンスを示し、平均精度は 91.3% でした。 研究者らは、全体的なパフォーマンスに対する 3 つのコンポーネントの相対的な寄与を調査するために、MedQA データセットでアブレーション実験を実施しました。 思考連鎖が自動的に生成されるこのステップはパフォーマンス向上に最大の役割を果たします GPT-4 によって自動的に生成された思考連鎖のスコアは、Med-PaLM 2 の専門家によって計画されたスコアよりも高く、 #最後に、研究者らは、MMLU ベンチマークからの 6 つの異なるデータセットを使用して、電気工学、機械学習をカバーする Medprompt のクロスドメイン汎化機能も調査しました。 、哲学、専門的な会計、専門的な法律、専門的な心理学の問題。 NCLEX (看護師国家試験) の問題を含む 2 つのデータセットも追加されました。 結果は、これらのデータセットに対する Medprompt の効果が MultiMedQA 医療データセットの改善と同様であり、平均精度が 7.3% 向上したことを示しています。
論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/pdf/2311.16452.pdf
以上がMicrosoft は、「プロンプト プロジェクト」だけで GPT-4 を医療専門家に変えました。十数種類の高度に微調整されたモデルにより、プロによるテスト精度が初めて 90% を超えましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。