大規模言語モデルの効率的なパラメータ微調整 - BitFit/Prefix/Prompt 微調整シリーズ-AI-php.cn

各タスクの完全な微調整は非常に効果的ですが、独自に大規模なモデルも生成されます。そのため、微調整中にどのような変更が発生したかを推測することが難しく、展開も難しく、特にタスクの数が増えると維持するのが難しくなります。

プレフィックスチューニング

プロンプトチューニング

ホームページ

テクノロジー周辺機器

大規模言語モデルの効率的なパラメータ微調整 - BitFit/Prefix/Prompt 微調整シリーズ

王林

Oct 07, 2023 pm 12:13 PM

言語モデル微調整 bitfit

2018 年、Google は BERT をリリースしました。リリースされると、11 個の NLP タスクの最先端 (Sota) の結果を一気に打ち破り、NLP の世界における新たなマイルストーンとなりました; BERT の構造は次の図に示されています。左側は BERT モデルの事前トレーニングプロセス、右側は特定のタスクの微調整プロセスです。このうち、微調整段階は、テキスト分類、品詞タグ付け、質疑応答システムなどの下流タスクで使用される際に微調整するためのものです。BERT は以下の点で微調整できます。構造を調整せずにさまざまなタスクを実行できます。「言語モデルの事前トレーニングと下流タスクの微調整」というタスク設計を通じて、強力なモデル効果をもたらしました。それ以来、「事前トレーニング言語モデルと下流タスクの微調整」が、NLP の分野における主流のトレーニングパラダイムになりました。

大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列 BERT 構造図、左側は事前トレーニングプロセス、右側は特定のタスクの微調整プロセス

しかし、GPT3 に代表される大規模アーキテクチャの登場により、大規模言語モデル (LLM) のパラメータサイズが増大するにつれて、コンシューマグレードのハードウェア上での完全な微調整は不可能になってきました。次の表は、A100 GPU (80G ビデオメモリ) および 64GB 以上の CPU メモリを備えたハードウェアでのフルモデルの微調整とパラメータ効率の良い微調整の CPU/GPU メモリ消費量を示しています。

大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列パラメータ微調整とパラメータ効率的な微調整の間のメモリ使用量の完全な比較

さらに、モデルの包括的な微調整は、多様性の喪失と深刻な忘却の問題にもつながります。。したがって、モデルの微調整を効率的に実行する方法が業界研究の焦点となっており、効率的なパラメータ微調整技術を迅速に開発するための研究スペースも提供されています。

効率的なパラメータ微調整とは、微調整を指します。少量または追加のモデルパラメーターと、固定された大規模な部分事前トレーニングモデル (LLM) パラメーターを使用することで、コンピューティングとストレージのコストを大幅に削減しながら、パラメーターの完全な微調整に匹敵するパフォーマンスを実現します。パラメーターの効率的な微調整方法は、場合によっては完全な微調整よりも優れており、ドメイン外のシナリオによく一般化できます。

効率的な微調整技術は、下図に示すように、パラメータの追加 (A)、更新するパラメータの一部を選択する (S)、高度なパラメータ化の導入の 3 つのカテゴリに大別できます。 (R)。パラメータを追加する方法のうち、それらは主に、アダプタのような方法とソフトプロンプトの 2 つのサブカテゴリに分類されます。

共通パラメータの効率的な微調整テクノロジーには、BitFit、プレフィックスチューニング、プロンプトチューニング、P-チューニング、アダプターチューニング、LoRA などが含まれます。次の章では、主流の効率的なパラメータ微調整方法について詳しく説明します

大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列 #一般的なパラメータの効率的な微調整テクノロジと方法

#BitFit/プレフィックス/プロンプト微調整シリーズ

BitFit

各タスクの完全な微調整は非常に効果的ですが、独自に大規模なモデルも生成されます。そのため、微調整中にどのような変更が発生したかを推測することが難しく、展開も難しく、特にタスクの数が増えると維持するのが難しくなります。

理想的には、次の条件を満たす効率的な微調整方法があればよいと考えています。

上記の問題は、微調整プロセスが新しい学習をどの程度導くことができるかによって異なります。能力と事前訓練LM中等学校の能力への露出。ただし、以前の効率的な微調整方法であるアダプターチューニングと差分プルーニングでも、上記のニーズを部分的に満たすことができます。 BitFit は、より小さいパラメーターを使用したスパースな微調整メソッドであり、上記のニーズをすべて満たすことができます。

BitFit は、トレーニング中にバイアスパラメーターまたはバイアスパラメーターの一部のみを更新するスパース微調整メソッドです。 Transformer モデルの場合、ほとんどのトランスフォーマーエンコーダーパラメーターが固定され、特定のタスクのバイアスパラメーターと分類層パラメーターのみが更新されます。関連するバイアスパラメーターには、クエリ、キー、値の計算、およびアテンションモジュールでの複数のアテンション結果のマージに関連するバイアス、MLP レイヤーのバイアス、レイヤー正規化レイヤーのバイアスパラメーター、および事前トレーニングモデルのバイアスパラメーターが含まれます。下図に示すように。

図大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列

PLM モジュールは、attention や FFN などの特定の PLM サブレイヤーを表します。図のオレンジ色のブロックは、トレーニング可能なヒントベクトル、青いブロックはフリーズされた事前トレーニングされたモデルパラメーターを表します

Bert-Base/Bert-Large などのモデルでは、バイアスパラメーターはモデルの全パラメーターの 0.08% ～ 0.09% しか占めません。しかし、GLUE データセットに基づく Bert-Large モデルに対する BitFit、アダプター、および Diff-Pruning の効果を比較すると、パラメーターの数がはるかに少ない場合、BitFit はアダプターおよび Diff-Pruning と同じ効果があることがわかりました。アダプターと差分プルーニングよりも、タスクによってはアダプターと差分プルーニングよりわずかに優れています。

実験結果からわかるように、すべてのパラメーターの微調整と比較して、BitFit の微調整結果では非常に少数のパラメーターのみが更新され、複数のデータセットで良好な結果が得られました。すべてのパラメーターを微調整するほどではありませんが、すべてのモデルパラメーターを固定する Frozen 方法よりははるかに優れています。同時に、BitFit トレーニングの前後でパラメーターを比較すると、キーの計算に関連するバイアスパラメーターなど、多くのバイアスパラメーターがあまり変化していないことがわかりました。クエリを計算し、特徴次元を N から 4N に拡大する FFN 層のバイアスパラメーターが最も顕著な変化を示していることがわかり、これら 2 種類のバイアスパラメーターを更新するだけでも良好な結果が得られます。逆に、これらのいずれかが修正されると、モデルの効果は大きく失われます。

プレフィックスチューニング

プレフィックスチューニング以前の作業は、主に個別のテンプレートを手動で設計するか、自動的に設計することでした。個別のテンプレートを検索します。手動でデザインされたテンプレートの場合、テンプレートの変更はモデルの最終的なパフォーマンスに特に影響を及ぼします。単語の追加、単語の欠落、または位置の変更は、比較的大きな変更を引き起こします。自動検索テンプレートの場合、コストが比較的高くなりますが、同時に、以前の個別トークン検索の結果が最適ではない可能性があります。さらに、従来の微調整パラダイムでは、事前トレーニングされたモデルを使用してさまざまな下流タスクを微調整するため、微調整されたモデルの重みをタスクごとに保存する必要があります。時間はかかりますが、その一方で、多くの保管スペースも必要になります。上記の 2 つの点に基づいて、Prefix Tuning は固定の事前トレーニング LM を提案します。LM にトレーニング可能なタスク固有のプレフィックスを追加することで、タスクごとに異なるプレフィックスを保存でき、微調整コストも小さくなります。 ; 同時に、この種のプレフィックスは実際には連続微分可能な仮想トークン (ソフトプロンプト/連続プロンプト) が最適化されており、離散トークンよりも優れた効果を発揮します。

つまり、書き直す必要があるのは、「プレフィックスの意味は何ですか?」ということです。プレフィックスの役割は、y をより適切に生成できるように、x に関連する情報を抽出するようにモデルをガイドすることです。たとえば、要約タスクを実行したい場合、微調整後、prefix は現在実行していることが「要約フォーム」タスクであることを理解し、x から重要な情報を抽出するようにモデルを誘導できます。感情分類タスクを実行するには、プレフィックスを使用して、x 内の感情に関連する意味情報を抽出するようにモデルをガイドできます。あまり厳密な説明ではないかもしれませんが、プレフィックスの役割は大体理解できると思います。

プレフィックスチューニングとは、トークンを入力する前にタスクに関連する仮想トークンをプレフィックスとして構築し、そのプレフィックスのパラメータのみを更新することです。トレーニング中の部分ですが、PLM の他のパラメーターは固定されています。モデル構造が異なる場合は、異なるプレフィックスを構築する必要があります:

自己回帰アーキテクチャモデルの場合: 文の前にプレフィックスを追加して、z = [PREFIX; x; y] を取得します。 LM が修正された状態で、コンテキストの生成をガイドします (例: GPT3 のコンテキスト学習)。
エンコーダー/デコーダーアーキテクチャモデルの場合: プレフィックスはエンコーダーとデコーダーの両方に追加され、結果は z = [PREFIX; x; PREFIX0; y] になります。プレフィックスは入力部分のエンコードをガイドするためにエンコーダー側で追加され、プレフィックスはその後のトークン生成をガイドするためにデコーダー側で追加されます。

大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列図

元の意味を変えずにコンテンツを書き直し、中国語で書き直します。前の部分の微調整では、すべての Transformer パラメーター (赤いボックス) を更新し、タスクごとにモデルの完全なコピーを保存する必要があります。下部のプレフィックス調整は、Transformer パラメータをフリーズし、プレフィックス (赤いボックス) のみを最適化します。

このメソッドは、プロンプトが人為的に構築された「明示的な」プロンプトであることを除いて、プロンプトの構築と実際には似ています。また、パラメータは更新できませんが、プレフィックスは学習可能な「暗黙の」ヒントです。同時に、Prefix のパラメータを直接更新することによるトレーニングの不安定化やパフォーマンスの低下を防ぐために、Prefix 層の前に MLP 構造を追加し、トレーニング完了後は Prefix のパラメータのみを保持します。また、アブレーション実験により、埋め込み層のみの調整では十分な表現力が得られず、大幅なパフォーマンス低下につながることが判明しているため、各層にプロンプトパラメータを追加し、比較的大きな変更を加えています。

プレフィックスチューニングは便利に見えますが、次の 2 つの重大な欠点もあります。

プロンプトチューニング

大規模なモデルを完全に微調整するには、タスクごとにモデルをトレーニングする必要があり、オーバーヘッドと展開コストが比較的高くなります。同時に、個別プロンプト (手動でプロンプトを設計し、モデルにプロンプトを追加することを指します) 方法は比較的高価であり、効果はあまり良くありません。プロンプトチューニングは、プロンプトを手動で設計する代わりに、更新されたパラメーターを逆伝播することによってプロンプトを学習します。同時に、モデルの元の重みを固定し、プロンプトパラメーターのみをトレーニングします。トレーニング後は、同じモデルをマルチタスク推論に使用できます。

大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列図

モデルのチューニングでは、各タスクの事前トレーニング済みモデル全体のタスク固有のコピーを作成する必要があります。下流のタスクと推論は、別々のバッチで。プロンプトチューニングでは、タスクごとに小さなタスク固有のプロンプトを保存するだけで済み、元の事前トレーニング済みモデルを使用した混合タスク推論が可能になります。

プロンプトチューニングは、プレフィックスチューニングの簡易バージョンと見なすことができます。タスクごとに独自のプロンプトを定義し、それを入力としてデータに結合しますが、入力層にプロンプトトークンを追加するだけです。困難なトレーニング問題を解決するために、調整のために MLP を追加する必要はありません。

実験を通じて、事前トレーニングされたモデルのパラメーターの数が増加するにつれて、プロンプトチューニング方法は完全なパラメーター微調整の結果に近づくことが判明しました。同時に、プロンプトチューニングは、同じタスクに対して異なるプロンプトをバッチで同時にトレーニングする (つまり、同じ質問を複数の異なる方法で行う) ことを意味するプロンプトアンサンブルも提案しました。これは、異なるモデルをトレーニングすることに相当します。たとえば、モデル統合のコストははるかに小さくなります。さらに、プロンプトチューニングのペーパーでは、初期化方法とプロンプトトークンの長さがモデルのパフォーマンスに与える影響についても説明しています。アブレーション実験の結果から、プロンプトチューニングはクラスラベルを使用して、ランダム初期化やサンプル語彙を使用した初期化よりも適切にモデルを初期化することがわかりました。ただし、モデルパラメーターのスケールが増加すると、このギャップは最終的にはなくなります。プロンプトトークンの長さが 20 程度であれば、すでにパフォーマンスは良好です (20 を超えると、プロンプトトークンの長さを増やしてもモデルのパフォーマンスが大幅に向上することはありません)。同様に、モデルパラメーターのスケールが大きくなるにつれて、このギャップも減少します。 (つまり、非常に大規模なモデルの場合、プロンプトトークンの長さが非常に短くても、パフォーマンスに大きな影響はありません)。

以上が大規模言語モデルの効率的なパラメータ微調整 - BitFit/Prefix/Prompt 微調整シリーズの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1662

CakePHP チュートリアル

1419

Laravel チュートリアル

1311

PHP チュートリアル

1261

C# チュートリアル

1234

Related knowledge

トークン化を 1 つの記事で理解しましょう! Apr 12, 2024 pm 02:31 PM

言語モデルは、通常は文字列の形式であるテキストについて推論しますが、モデルへの入力は数値のみであるため、テキストを数値形式に変換する必要があります。トークン化は自然言語処理の基本タスクであり、特定のニーズに応じて、連続するテキストシーケンス (文、段落など) を文字シーケンス (単語、フレーズ、文字、句読点など) に分割できます。その中の単位はトークンまたはワードと呼ばれます。以下の図に示す具体的なプロセスに従って、まずテキスト文がユニットに分割され、次に単一の要素がデジタル化され (ベクトルにマッピングされ)、次にこれらのベクトルがエンコード用のモデルに入力され、最後に下流のタスクに出力され、さらに最終結果を取得します。テキストセグメンテーションは、テキストセグメンテーションの粒度に応じて Toke に分割できます。

大規模なモデルをクラウドにデプロイするための 3 つの秘密 Apr 24, 2024 pm 03:00 PM

コンピレーション|Xingxuan によって制作|51CTO テクノロジースタック (WeChat ID: blog51cto) 過去 2 年間、私は従来のシステムよりも大規模言語モデル (LLM) を使用した生成 AI プロジェクトに多く関与してきました。サーバーレスクラウドコンピューティングが恋しくなってきました。そのアプリケーションは、会話型 AI の強化から、さまざまな業界向けの複雑な分析ソリューションやその他の多くの機能の提供まで多岐にわたります。多くの企業は、パブリッククラウドプロバイダーが既製のエコシステムをすでに提供しており、それが最も抵抗の少ない方法であるため、これらのモデルをクラウドプラットフォームにデプロイしています。ただし、安くはありません。クラウドは、スケーラビリティ、効率、高度なコンピューティング機能 (オンデマンドで利用可能な GPU) などの他の利点も提供します。パブリッククラウドプラットフォームでの LLM の展開については、あまり知られていない側面がいくつかあります

大規模言語モデルの効率的なパラメータ微調整 - BitFit/Prefix/Prompt 微調整シリーズ Oct 07, 2023 pm 12:13 PM

2018 年に Google が BERT をリリースしました。リリースされると、11 個の NLP タスクの最先端 (Sota) 結果を一気に打ち破り、NLP 界の新たなマイルストーンとなりました。BERT の構造は次のとおりです。下の図では、左側は BERT モデルのプリセット、右側はトレーニングプロセス、右側は特定のタスクの微調整プロセスです。このうち、微調整ステージは、テキスト分類、品詞のタグ付け、質問と回答システムなど、その後のいくつかの下流タスクで使用されるときに微調整するためのものです。BERT はさまざまな上で微調整できます。構造を調整せずにタスクを実行できます。「事前トレーニング済み言語モデル + 下流タスク微調整」のタスク設計により、強力なモデル効果をもたらします。以来、「言語モデルの事前トレーニング + 下流タスクの微調整」が NLP 分野のトレーニングの主流になりました。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データセットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データセットがありますが、これらのデータセットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

Meta が 650 億のパラメータを持つ大規模言語モデルである AI 言語モデル LLaMA を発表 Apr 14, 2023 pm 06:58 PM

2月25日のニュースによると、Metaは現地時間金曜日、研究コミュニティ向けに人工知能（AI）に基づく新しい大規模言語モデルを立ち上げ、ChatGPTに刺激されたMicrosoft、Google、その他の企業も人工知能に参加すると発表した。 . 知的な競争。 Meta の LLaMA は、「Large Language Model MetaAI」(LargeLanguageModelMetaAI) の略称であり、政府、コミュニティ、学術界の研究者および団体が非営利ライセンスに基づいて利用できます。同社は、基礎となるコードをユーザーが利用できるようにするため、ユーザーはモデルを自分で調整して研究関連のユースケースに使用できるようになります。 Meta 氏は、モデルの計算能力要件について次のように述べています。

RoSA: 大規模なモデルパラメータを効率的に微調整するための新しい方法 Jan 18, 2024 pm 05:27 PM

言語モデルが前例のない規模に拡大するにつれて、下流タスクの包括的な微調整には法外なコストがかかります。この問題を解決するために、研究者はPEFT法に注目し、採用し始めました。 PEFT 手法の主なアイデアは、微調整の範囲を少数のパラメータセットに制限して、自然言語理解タスクで最先端のパフォーマンスを達成しながら計算コストを削減することです。このようにして、研究者は高いパフォーマンスを維持しながらコンピューティングリソースを節約でき、自然言語処理の分野に新たな研究のホットスポットをもたらします。 RoSA は、一連のベンチマークでの実験を通じて、同じパラメーターバジェットを使用した以前の低ランク適応 (LoRA) および純粋なスパース微調整手法よりも優れたパフォーマンスを発揮することが判明した新しい PEFT 手法です。この記事ではさらに詳しく説明します

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート Apr 12, 2023 am 09:31 AM

近年の自然言語処理の進歩は主に大規模言語モデルによるものであり、新しいモデルがリリースされるたびにパラメータと学習データの量が新たな最高値に押し上げられ、同時に既存のベンチマークランキングが壊滅することになります。たとえば、今年 4 月に Google は、5,400 億パラメータの言語モデル PaLM (Pathways Language Model) をリリースしました。これは、一連の言語および推論テストで人間を超えることに成功し、特に数ショットの小規模サンプル学習シナリオで優れたパフォーマンスを発揮しました。 PaLM は、次世代言語モデルの開発方向であると考えられています。同様に、視覚言語モデルは実際に驚くべき働きをしており、モデルの規模を大きくすることでパフォーマンスを向上させることができます。もちろん、それが単なるマルチタスク視覚言語モデルであれば、

Code Llama のコーディング能力は急上昇し、HumanEval の微調整バージョンは GPT-4 よりも高いスコアを獲得し、1 日でリリースされました Aug 26, 2023 pm 09:01 PM

昨日、Meta はコード生成に特化した基本モデルである CodeLlama をオープンソース化し、研究および商用目的で無料で使用できます。 CodeLlama シリーズモデルには 3 つのパラメータバージョンがあり、パラメータ量はそれぞれ 7B、13B、34B です。また、Python、C++、Java、PHP、Typescript (Javascript)、C#、Bash などの複数のプログラミング言語をサポートします。 Meta が提供する CodeLlama のバージョンには、基本的なコードモデルである CodeLlama、Python の微調整バージョンである CodeSheep-Python、自然言語命令の微調整バージョンである CodeLlama-Instruct が含まれます。コードラマ

See all articles

大規模言語モデルの効率的なパラメータ微調整 - BitFit/Prefix/Prompt 微調整シリーズ

BitFit

プレフィックス チューニング

プロンプトチューニング

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

プレフィックスチューニング