Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

王林
リリース: 2023-10-12 14:29:04
転載
704 人が閲覧しました

計算の 3% のみ 、コストの 5% SOTA を取得し、オープンの 1B ~ 3B スケールを独占出典 大型モデル。

この結果は、LLM-ShearingLarge Model Pruning Method と呼ばれるプリンストン Chen Danqi チームによるものです。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

アルパカ LLaMA 2 7B に基づいて、1.3B および 3B プルーニングされた Sheared-LLama モデルは、指向性構造化プルーニング によって取得されます。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

#下流タスク評価の点で同規模の以前のモデルを超えるには、書き換える必要があります

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

筆頭著者の #Xia Mengzhou 氏は、「ゼロから事前トレーニングするよりもはるかに費用対効果が高い」と述べています。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

この論文では、プルーニングされた Sheared-LLaMA 出力の例も示しており、わずか 1.3B と 2.7B の規模にもかかわらず、すでに一貫性のあるリッチなコンテンツを生成できることを示しています。 。 返事。

「半導体業界アナリストとして行動する」という同じタスクについて、バージョン 2.7B の回答構造はさらに明確です。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

チームは、現在プルーニング実験には Llama 2 7B バージョンのみが使用されていますが、この方法は

他のモデル アーキテクチャにも拡張可能であると述べています は任意のスケール に拡張することもできます。

プルーニング後のさらなる利点は、継続的な事前トレーニングのために高品質のデータセットを選択できることです

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

一部の開発者は、わずか 6 か月前にこう言いました、ほとんどの人が、65B 未満のモデルは実用的ではないと信じていました。

これが続けば、1B ~ 3B モデルも、今すぐではないにしても、すぐに大きな価値を生み出すことができると私は確信しています。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす# 制約付き最適化として枝刈りを扱う

LLM-Shearing、具体的には

指向性構造化枝刈りブランチ、大規模なモデルを指定されたターゲット構造に合わせてプルーニングします。 以前の枝刈り手法では、一部の構造が削除され、表現力に影響を与えるため、モデルのパフォーマンスが低下する可能性があります。

枝刈りを制約付き最適化問題として扱うことで、新しい手法を提案します。パフォーマンスを最大化することを目的として、プルーニング マスク マトリックスを学習することで、指定された構造に一致するサブネットワークを検索します。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす# 次に、プルーニングされたモデルを続行します。 事前トレーニングにより、ある程度の枝刈りによるパフォーマンスの低下。

この段階で、チームは、枝刈りしたモデルと最初からトレーニングしたモデルでは、データセットごとに損失低減率が異なるため、データ利用効率が低いという問題が発生していることを発見しました。

この目的のために、チームは、モデルの損失削減率に応じて各ドメインのデータを動的に調整する

Dynamic Batch Loading(Dynamic Batch Loading)を提案しました。異なるドメインのデータに比例してデータ利用効率が向上します。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす 研究によると、枝刈りされたモデルは、最初からトレーニングされた同じサイズのモデルに比べて初期パフォーマンスが劣りますが、継続的な事前トレーニングを通じてすぐに改善され、最終的には向上する可能性があります。超える

これは、強力な基本モデルから枝刈りを行うことで、事前トレーニングを継続するためのより良い初期化条件を提供できることを示しています。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

は引き続き更新されます。1 つずつ切り取ってみましょう

この論文の著者はプリンストン大学の博士課程の学生です Xia Mengzhou, Gao Tianyu、清華大学Zhiyuan Zeng、プリンストン大学助教授陈 Danqi

Xia Mengzhou は、復旦大学で学士号を取得し、CMU で修士号を取得しました。

Gao Tianyu は清華大学を卒業した学部生で、2019 年に清華特別賞を受賞しました

二人とも陳丹祁の学生で、陳丹祁は現在プリンストン大学の助手ですプリンストン自然言語処理グループの教授兼共同リーダー

最近、Chen Danqi 氏は個人のホームページで研究の方向性を更新しました。

「この期間は主に大規模モデルの開発に焦点を当てています。研究テーマには次のものが含まれます。」

  • 次世代モデルにおいて、信頼性、適応性、解釈可能性と信頼性。
  • 大規模モデルの低コストのトレーニングとデプロイメント、改善されたトレーニング方法、データ管理、モデル圧縮、下流のタスク適応の最適化。
  • また、現在の大規模モデルの機能と限界について、経験的および理論的に理解を深める研究にも興味があります。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

Sheared-Llama は Hugging Face で利用できるようになりました

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

チームは、今後も継続して提供すると述べました。オープンソース ライブラリを更新します。

さらに大きなモデルがリリースされたら、それらを 1 つずつ切り分けて、高性能の小さなモデルをリリースし続けます。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

もう 1 つ

大きなモデルは縮れすぎていると言わざるを得ません。

Mengzhou Xia 氏は、論文執筆時に SOTA テクノロジーを使用したが、論文完成後は最新の Stable-LM-3B テクノロジーによってその技術を上回られたと訂正を発表しました。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

論文アドレス: https://arxiv.org/abs/2310.06694

##ハグフェイス: https://huggingface.co/princeton-nlp

プロジェクトのホームページのリンク: https://xiamengzhou.github.io/sheared-llama/

以上がChen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!