大規模な言語モデルがますます強力になるにつれて、人々は AI モデルに対してより高い倫理的要件を提案するようになりました。業界には、モデル規模の拡大という点でコンピューティング リソースの利点がありますが、モデルをより標準化して信頼性の高いものにするためには、学術コミュニティの努力が必要です。
最近、スタンフォード大学は、Meta の LLaMA 7B モデルに基づいて新しいモデル Alpaca を微調整しました。この研究では、OpenAI の text-davinci-003 モデルを使用して、Alpaca のトレーニング データとして自己指示方式で 52,000 個の指示に従うサンプルを生成しました。研究チームはトレーニングデータ、トレーニングデータを生成するコード、ハイパーパラメータをオープンソース化しており、今後モデルの重みやトレーニングコードも公開する予定だ。
実験結果は、アルパカの多くの行動が text-davinci-003 に似ていることを示しています。言い換えれば、パラメータが 7B しかない軽量モデルである Alpaca のパフォーマンスは、GPT-3.5 などの非常に大規模な言語モデルに匹敵します。
Alpaca モデルがどのように実行するかを見てみましょう。
トレーニング方法学術界の予算条件内でモデルに従った高品質の指導をトレーニングするには、2 つの重要な課題に直面します。それは、強力な事前トレーニング済み言語モデルと高品質な指導です。データに従ってください。
Meta が最近リリースした LLaMA モデル ファミリは、最初の課題に対処します。 2 番目の課題として、2022 年末の自己指導文書では、既存の強力な言語モデルを使用して指示データを自動的に生成することが提案されています。
紙のアドレス: https://arxiv.org/abs/2212.10560
この方法によれば、Alpaca は LLaMA 7B モデルの教師あり学習を使用して、自己命令の text-davinci-003 によって生成されたサンプルに従う 52K 命令を微調整します。やり方。
# 自己指導メソッドの概要。 Alpaca の研究チームは、まず自己指示シード セット内の 175 個の手動で記述された命令と出力のペアを使用し、次にこのシード セットをコンテキスト内のサンプル プロンプトとして使用しました。 text-davinci-003 を使用して、さらに指示を生成します。この研究では、ビルド パイプラインを簡素化し、コストを大幅に削減することで自己指示方式を改善しました。
この調査では、合計 52,000 の異なる命令とそれに対応する出力をトレーニング データとして生成しました。これらの出力には、 500ドル。研究チームはトレーニングデータをオープンソース化しているため、アルパカを再現したい開発者は500ドルを節約できる。
データセットに続くこの指示により、研究の次のステップは、Hugging Face のツールを使用して LLaMA モデルを微調整することでした。トレーニング フレームワークを利用し、FSDP (Fully Sharded Data Parallel) や混合精度トレーニングなどのテクノロジーを利用します。コストの面では、8 台の 80GB A100 で 7B LLaMA モデルを微調整するには 3 時間かかりますが、ほとんどのクラウド プロバイダーではコストは 100 ドル未満です。
モデル評価
研究は、自己指導型評価セットからの入力を使用して手動で評価され、研究チームの 5 人の学生によって完了されました。評価セットは自己啓発文書の著者によって収集され、電子メール、ソーシャル メディア、オフィス ツールを含むさまざまなユーザー指向の指示がカバーされています。text-davinci-003 と Alpaca 7B をペアでブラインド比較した結果、研究者らは 2 つのモデルのパフォーマンスが非常に似ており、Alpaca が text-davinci-003 よりわずかに優れていることを発見しました。
パラメータ スケールの観点から見ると、Alpaca は text-davinci-003 よりもはるかに小さく、モバイル端末は 7B の軽量言語モデルを実行することもできます。これにより、アルパカが重要になります。
この研究では、上記の静的自己命令評価セットの利用に加えて、Alpaca モデルで対話型テストも実施し、Alpaca が一般的に text-davinci-003 と同様のパフォーマンスを示すことがわかりました。
以下は、研究チームによってテストされた 2 つの例です。結果は、Alpaca の出力が良好であり、データセットに従う命令の一般的なスタイルを反映していることを示しています。たとえば、Alpaca は、text-davinci-003 と同様に、ChatGPT よりも簡潔な回答を出力することがよくあります。
実験では、Alpaca は幻覚、毒性、固定観念など、言語モデルによくあるいくつかの欠陥も示しましたが、その中でも幻覚の問題は特に深刻です。
たとえば、下の写真では、アルパカはタンザニアの首都はダルエスサラームだと答えていますが、実際にはドドマであるはずです。
さらに、Alpaca は、一見良さそうに見えても、人々に誤解を与える可能性のあるエラーや虚偽の情報を含むテキストを生成することができます。 . .
Alpaca には、基礎となる言語モデルと命令チューニング データに関連するその他の欠陥が多数含まれている可能性があります。ただし、Alpaca は重要な欠陥を研究するための基礎として機能する比較的軽量なモデルを提供するため、機械学習コミュニティにとって依然として重要です。スタンフォード大学の研究チームはまた、アルパカは学術研究にのみ使用でき、商業利用は禁止されていると強調した。
次に、スタンフォード大学の研究チームは、Alpaca モデルの安全性、理解力、規模拡大などをさらに調査します。研究チームは、Alpaca によって指示に従うモデルの開発が促進されることを期待しています。
以上がスタンフォードの 70 億パラメータのオープンソース モデルは GPT-3.5 に匹敵し、100 ドルで再現可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。