ホームページ テクノロジー周辺機器 AI 「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

Oct 12, 2023 pm 06:29 PM
プロジェクト 大型モデルの枝刈り llm-shearing

ラマ 2 の大型モデルのアルパカの毛をカットするとどのような影響がありますか?本日、プリンストン大学のChen Danqiチームは、LLM-Shearingと呼ばれる大規模モデルの枝刈り手法を提案しました。これは、少ない計算量とコストで、同じサイズのモデルよりも優れたパフォーマンスを実現できます。


大規模言語モデル (LLM) の出現以来、LLM はさまざまな自然言語タスクで目覚ましい結果を達成してきました。ただし、大規模な言語モデルのトレーニングには大量のコンピューティング リソースが必要です。その結果、業界では、効率的な推論と微調整を可能にする LLaMA、MPT、Falcon の登場により、同様に強力な中規模モデルの構築にますます関心が高まっています。

これらのさまざまなサイズの LLM はさまざまなユースケースに適していますが、個々のモデルをゼロからトレーニングするには (10 億の小さなパラメーター モデルであっても)、依然として大量のコンピューティング リソースが必要です。 、これはほとんどの科学研究機関にとって依然として大きな負担となっています。

したがって、この記事では、プリンストン大学の Chen Danqi のチームが次の問題の解決を試みます: 既存の事前トレーニング済み LLM を使用して、より小規模で汎用性の高いパフォーマンスの高い LLM を構築できるか-ゼロからトレーニングするよりもはるかに少ない計算量で効率的な競争力のある LLM を実現できますか?

研究者は、目標を達成するために構造化された枝刈りの使用を検討しています。ここでの問題は、汎用 LLM の場合、特に枝刈り後に大幅な計算投資がない場合、枝刈りされたモデルのパフォーマンスが低下することです。彼らが使用した効率的な枝刈り手法は、より小さいながらもパフォーマンス競争力のある LLM を開発するために使用でき、トレーニングに必要な計算量は、最初からトレーニングするよりも大幅に少なくなります。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

  • ペーパーアドレス: https://arxiv.org/abs/2310.06694
  • コードアドレス: https://github.com/princeton-nlp/LLM-Shearing
  • ModelsSheared-LLaMA-1.3B、Sheared-LLaMA-2.7B

# LLM を枝刈りする前に、研究者は 2 つの重要な技術的課題を特定しました。1 つは、強力なパフォーマンスと効率的な推論を備えた最終的な枝刈り構造を決定する方法です。 LLM の現在の構造化枝刈りテクノロジには、指定されたターゲット構造がないため、枝刈りモデルのパフォーマンスと推論速度が不十分になります。第 2 に、期待されるパフォーマンスを達成するために枝刈りモデルの事前トレーニングを続けるにはどうすればよいでしょうか?彼らは、未加工のトレーニング前データを使用したトレーニングでは、モデルを最初からトレーニングする場合と比較して、ドメイン全体で異なる損失削減効果が得られることを観察しました。

これら 2 つの課題に対応して、研究者らは 「LLM - シャーリング」アルゴリズム を提案しました。 「有向構造化枝刈り」と呼ばれるこの新しい枝刈りアルゴリズムは、既存の事前トレーニング済みモデルの構成によって決定される指定されたターゲット アーキテクチャにソース モデルを枝刈りします。これらは、枝刈り手法がソース モデル内の部分構造を検索し、リソース制約の下でパフォーマンスを最大化することを示しています。さらに、動的バッチローディングアルゴリズムが設計されており、損失削減率に応じて各ドメインのトレーニングデータを比例的にロードできるため、データが効率的に利用され、全体的なパフォーマンスの向上が加速されます。

最後に、研究者らは LLaMA2-7B モデルを 2 つの小さな LLM、すなわち Sheared-LLaMA-1.3B と Sheared-LLaMA-2.7B に枝刈りし、その有効性を確認しました。方法。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

彼らは、事前トレーニングをプルーニングして継続するために 500 億トークン (つまり、OpenLLaMA 事前トレーニング予算の 5%) のみを使用しましたが、11 の代表的な下流タスク (たとえば、一般知識、読解力、世界知識) とオープンエンドの生成命令チューニングの両方のモデルは、Pythia、INCITE、OpenLLaMA など、同様のサイズの他の人気のある LLM よりも優れたパフォーマンスを示しています。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

しかし、本稿が Sheared-LLaMA-3B をリリースしたとき、最強の 3B オープン ソース モデルの記録は StableLM-3B によって破られていたことに言及する必要があります。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

さらに、下流タスクのパフォーマンスの軌跡は、より多くのトークンを使用してプルーニングされたモデルをさらにトレーニングすると、より大きなメリットがもたらされることを示しています。研究者らは最大 70 億パラメータまでのモデルのみを実験しましたが、LLM せん断は非常に汎用的であり、将来の研究ではあらゆるサイズの大規模な言語モデルに拡張できる可能性があります。

メソッドの紹介

既存の大規模モデル M_S (ソース モデル ) が与えられると、この記事の目的は、より小さく強力なモデル M_T (ターゲット モデル) を効果的に生成する方法を研究することです。研究では、これを完了するには 2 つの段階が必要であると考えています:

  • 最初の段階では、M_S を M_T にプルーニングします。これによりパラメーターの数は減りますが、必然的にパフォーマンスの低下につながります;
  • 第 2 ステージでは、引き続き M_T の事前トレーニングを行って、パフォーマンスを強化します。

#構造化プルーニング

構造化プルーニングパラメータをモデルから削除できるため、モデルが圧縮され、推論が高速化されます。ただし、既存の構造化された枝刈り手法では、モデルが従来のアーキテクチャ構成から逸脱する可能性があります。たとえば、CoFiPruning メソッドは不均一なレイヤー構成を持つモデルを生成するため、標準の統合レイヤー構成と比較して追加の推論オーバーヘッドが発生します。

この記事では、CoFiPruning を拡張して、ソース モデルを指定されたターゲット構成にプルーニングできるようにします。たとえば、この記事では、2.7B モデルを生成する際のターゲット構造として INCITE-Base-3B アーキテクチャを使用します。

さらに、この記事では、さまざまな粒度のモデル パラメーターに対する一連のプルーニング マスクについても学習します。マスク変数は次のとおりです:

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

各マスク変数は、関連する部分構造を削除するか保持するかを制御します。たとえば、対応する z^layer= 0 の場合、このレイヤーは削除する必要があります。以下の図 2 は、プルーニング マスクがどの構造をプルーニングするかを制御する方法を示しています。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

この論文では、枝刈りの後、各部分構造のマスク変数に関連付けられた最もスコアの高いコンポーネントを保持することで枝刈り後のアーキテクチャを完成させ、引き続き言語構築を使用します。枝刈りされたモデルを事前トレーニングします。

動的バッチ読み込み

この調査では、多数の枝刈りされたモデルは、モデルのパフォーマンスを回復するには、事前トレーニングが必要です。

この論文では、他の研究に触発されて、モデルのパフォーマンスに基づいてドメインのスケールを動的に調整するだけで済む、より効率的なアルゴリズムである動的バッチ読み込みを提案します。アルゴリズムは次のとおりです。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

実験と結果

モデル構成: この記事LLaMA2-7B を使用 モデルをソース モデルとして使用し、構造化枝刈り実験を実行しました LLaMA2-7B を 2.7 B パラメーターと 1.3 B パラメーターの 2 つの小さなターゲット サイズに圧縮し、枝刈りモデルのパフォーマンスをモデルと比較しましたOPT-1.3B、Pythia-1.4B、OPT-2.7B、Pythia-2.8B、INCITE-Base-3B、OpenLLaMA-3B-v1、OpenLLaMA-3B-v2 を含みます。表 8 は、これらすべてのモデルのモデル アーキテクチャの詳細をまとめたものです。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

データ: LLaMA2 のトレーニング データは公開されていないため、この記事では RedPajama データセットを使用します。表 1 は、この論文のモデルとベースライン モデルで使用される事前トレーニング データを示しています。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

トレーニング: すべての実験で最大 16 個の Nvidia A100 GPU (80GB) を使用しました。

SHEARED-LLAMA は、同等のサイズの LM よりも優れたパフォーマンスを発揮します

この論文では、Sheared-LLaMA が次のことを示しています。これらのモデルを最初からトレーニングするために使用する計算予算の一部のみを使用しながら、同様のサイズの既存の LLM よりも大幅に優れたパフォーマンスを発揮します。

下流タスク: 表 2 は、下流タスクにおける Sheared-LLaMA と同様のサイズの既存の事前トレーニング済みモデルのゼロショットおよび少数ショットのパフォーマンスを示しています。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

命令チューニング: 図 3 に示すように、命令チューニングされた Sheared-LLaMA は、同じスケールの他のすべての事前トレーニング済みモデルと比較して、より高い勝率を達成します。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

図 4 は、INCITEBase-3B モデルが非常に高い精度で開始されるが、進行中の事前トレーニング プロセス中にパフォーマンスが横ばいになることを示しています。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

分析

最後に、研究者はこの方法の利点を分析しました。

#動的バッチローディングの有効性

その中で、研究者は次の 3 つを研究しました。動的バッチ読み込みの有効性を分析するために、(1) ドメイン全体にわたる最終的な LM 損失、(2) トレーニング プロセス全体にわたる各ドメインのデータ使用量、および (3) 下流タスクのパフォーマンスの影響を分析します。結果は Sheared-LaMA-1.3B アルゴリズムに基づいています。

クロスドメイン損失の差。動的バッチロードの目的は、損失がほぼ同時に基準値に達するように、各ドメインの損失削減率のバランスをとることです。モデル損失 (元のバッチ ロードと動的バッチ ロード) と基準損失の差を図 5 にプロットします。対照的に、動的バッチ ロードは損失を均等に削減し、ドメイン間の損失の差も非常に似ています。これは、次のことを示しています。データをより効率的に活用します。 ###############データ使用量。表 3 は、RedPajama の生データの割合と動的に読み込まれるドメイン データの使用量を比較しています (図 7 は、トレーニング プロセス全体にわたるドメインの重みの変化を示しています)。動的一括読み込みにより、Book ドメインと C4 ドメインの重みが他のドメインに比べて増加します。これは、これらのドメインをプルーニングされたモデルから回復することがより困難であることを示しています。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

下流のパフォーマンス。図 6 に示すように、動的バッチ読み込みを使用してトレーニングされたプルーニングされたモデルは、元の RedPajama ディストリビューションでトレーニングされたモデルと比較して、ダウンストリームのパフォーマンスが向上しました。これは、動的バッチ読み込みによってもたらされる、よりバランスのとれた損失削減により、ダウンストリームのパフォーマンスが向上する可能性があることを示唆しています。

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

他の剪定方法との比較

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

さらに、研究者らは LLM を使用しました。せん断手法は他の枝刈り手法と比較され、検証の複雑さが報告されます。これは、モデル全体の機能の強力な指標となります。

計算上の制限のため、次の実験では、各メソッドを最後まで実行するのではなく、比較されるすべてのメソッドの合計計算量を制御します。

表 4 に示すように、同じスパース性の下では、この記事のターゲット プルーニング モデルの推論スループットは、不均一プルーニング CoFiPruning モデルの推論スループットよりも高くなります。しかし、困惑はわずかに高くなります。

#その他の分析

「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。

表 5 は、トークンの総量が制御される場合の結果を示しています。 、枝刈りのオーバーヘッドを増やすと、複雑さが継続的に改善される可能性があります。ただし、枝刈りは継続的な事前トレーニングよりもコストがかかるため、研究者は枝刈りに 0.4 億トークンを割り当てました。

研究の詳細については、元の論文を参照してください。

以上が「アルパカ」を段階的に剪断する方法を教えます。Chen Danqi のチームは、LLM-Shearing 大型モデル剪定方法を提案しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。 。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェア エンジニアのリストのトップに立つ UIUC のエージェントレス ソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します オープンソース AI ソフトウェア エンジニアのリストのトップに立つ UIUC のエージェントレス ソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナ シャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

RLHF から DPO、TDPO に至るまで、大規模なモデル アライメント アルゴリズムはすでに「トークンレベル」になっています RLHF から DPO、TDPO に至るまで、大規模なモデル アライメント アルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッション プラットフォームはオンライン、LeCun は気に入っています arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッション プラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯!紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープン ディスカッション フォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッション エリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニング コードなどはすべてオープンソースです 最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニング コードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに 近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

公理的トレーニングにより、LLM は因果推論を学習できます。6,700 万個のパラメータ モデルは、1 兆個のパラメータ レベル GPT-4 に匹敵します。 公理的トレーニングにより、LLM は因果推論を学習できます。6,700 万個のパラメータ モデルは、1 兆個のパラメータ レベル GPT-4 に匹敵します。 Jul 17, 2024 am 10:14 AM

LLM に因果連鎖を示すと、LLM は公理を学習します。 AI はすでに数学者や科学者の研究を支援しています。たとえば、有名な数学者のテレンス タオは、GPT などの AI ツールを活用した研究や探索の経験を繰り返し共有しています。 AI がこれらの分野で競争するには、強力で信頼性の高い因果推論能力が不可欠です。この記事で紹介する研究では、小さなグラフでの因果的推移性公理の実証でトレーニングされた Transformer モデルが、大きなグラフでの推移性公理に一般化できることがわかりました。言い換えれば、Transformer が単純な因果推論の実行を学習すると、より複雑な因果推論に使用できる可能性があります。チームが提案した公理的トレーニング フレームワークは、デモンストレーションのみで受動的データに基づいて因果推論を学習するための新しいパラダイムです。

See all articles