計算の 3% のみ 、コストの 5% SOTA を取得し、オープンの 1B ~ 3B スケールを独占出典 大型モデル。
この結果は、LLM-ShearingLarge Model Pruning Method と呼ばれるプリンストン Chen Danqi チームによるものです。
アルパカ LLaMA 2 7B に基づいて、1.3B および 3B プルーニングされた Sheared-LLama モデルは、指向性構造化プルーニング によって取得されます。
#下流タスク評価の点で同規模の以前のモデルを超えるには、書き換える必要があります 筆頭著者の #Xia Mengzhou 氏は、「ゼロから事前トレーニングするよりもはるかに費用対効果が高い」と述べています。 この論文では、プルーニングされた Sheared-LLaMA 出力の例も示しており、わずか 1.3B と 2.7B の規模にもかかわらず、すでに一貫性のあるリッチなコンテンツを生成できることを示しています。 。 返事。 「半導体業界アナリストとして行動する」という同じタスクについて、バージョン 2.7B の回答構造はさらに明確です。 チームは、現在プルーニング実験には Llama 2 7B バージョンのみが使用されていますが、この方法は他のモデル アーキテクチャにも拡張可能であると述べています、 は任意のスケール に拡張することもできます。
プルーニング後のさらなる利点は、継続的な事前トレーニングのために高品質のデータセットを選択できることです 一部の開発者は、わずか 6 か月前にこう言いました、ほとんどの人が、65B 未満のモデルは実用的ではないと信じていました。これが続けば、1B ~ 3B モデルも、今すぐではないにしても、すぐに大きな価値を生み出すことができると私は確信しています。
# 制約付き最適化として枝刈りを扱う
指向性構造化枝刈りブランチ、大規模なモデルを指定されたターゲット構造に合わせてプルーニングします。 以前の枝刈り手法では、一部の構造が削除され、表現力に影響を与えるため、モデルのパフォーマンスが低下する可能性があります。
枝刈りを制約付き最適化問題として扱うことで、新しい手法を提案します。パフォーマンスを最大化することを目的として、プルーニング マスク マトリックスを学習することで、指定された構造に一致するサブネットワークを検索します。
# 次に、プルーニングされたモデルを続行します。 事前トレーニングにより、ある程度の枝刈りによるパフォーマンスの低下。
この段階で、チームは、枝刈りしたモデルと最初からトレーニングしたモデルでは、データセットごとに損失低減率が異なるため、データ利用効率が低いという問題が発生していることを発見しました。
この目的のために、チームは、モデルの損失削減率に応じて各ドメインのデータを動的に調整する
Dynamic Batch Loading(Dynamic Batch Loading)を提案しました。異なるドメインのデータに比例してデータ利用効率が向上します。
研究によると、枝刈りされたモデルは、最初からトレーニングされた同じサイズのモデルに比べて初期パフォーマンスが劣りますが、継続的な事前トレーニングを通じてすぐに改善され、最終的には向上する可能性があります。超える
これは、強力な基本モデルから枝刈りを行うことで、事前トレーニングを継続するためのより良い初期化条件を提供できることを示しています。
この論文の著者はプリンストン大学の博士課程の学生です Xia Mengzhou, Gao Tianyu、清華大学Zhiyuan Zeng、プリンストン大学助教授陈 Danqi。
Xia Mengzhou は、復旦大学で学士号を取得し、CMU で修士号を取得しました。
Gao Tianyu は清華大学を卒業した学部生で、2019 年に清華特別賞を受賞しました
二人とも陳丹祁の学生で、陳丹祁は現在プリンストン大学の助手ですプリンストン自然言語処理グループの教授兼共同リーダー
最近、Chen Danqi 氏は個人のホームページで研究の方向性を更新しました。
「この期間は主に大規模モデルの開発に焦点を当てています。研究テーマには次のものが含まれます。」
Sheared-Llama は Hugging Face で利用できるようになりました
チームは、今後も継続して提供すると述べました。オープンソース ライブラリを更新します。
さらに大きなモデルがリリースされたら、それらを 1 つずつ切り分けて、高性能の小さなモデルをリリースし続けます。
大きなモデルは縮れすぎていると言わざるを得ません。
Mengzhou Xia 氏は、論文執筆時に SOTA テクノロジーを使用したが、論文完成後は最新の Stable-LM-3B テクノロジーによってその技術を上回られたと訂正を発表しました。
論文アドレス: https://arxiv.org/abs/2310.06694
##ハグフェイス: https://huggingface.co/princeton-nlp
プロジェクトのホームページのリンク: https://xiamengzhou.github.io/sheared-llama/
以上がChen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。