AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この論文の著者は全員、華南理工大学の馬 Qianli 教授のチームのメンバーです。彼らの研究室は機械学習とデータです ラボを掘ります。この論文の共同筆頭著者は博士課程の学生 Zheng Junhao、修士課程の Qiu Shengjie、修士課程の Shi Chengming の 3 人で、主な研究方向は大規模モデルと生涯学習です。責任著者は馬 Qianli 教授 (IEEE の副編集長) です。 ACM TASLP)。近年、Ma Qianli 教授のチームは、権威ある国際ジャーナル (TPAMI など) や一流の国際学術会議 (NeurIPS、AAAI、IJCAI、ACL、 KDD、ICDEなど)国内外の著名な大学や科学研究機関との広範な協力。 大規模な言語モデルの適用がさまざまな分野で拡大し続ける中、これらのモデルをデータ、タスク、ユーザー設定の変化に継続的に適応させるにはどうすればよいかが課題となっています。重要な問題になります。従来の静的データセットのトレーニング方法では、現実世界の動的なニーズを満たすことができなくなりました。 この課題を解決するために、生涯学習または継続学習テクノロジーが登場しました。これにより、大規模な言語モデルが業務期間中に継続的に学習して適応し、新しい知識を統合しながら以前に学習した情報を保持し、壊滅的な忘却 (壊滅的な忘却) を防ぐことができます。 最近、華南理工大学の研究者らは、生涯学習法とその大規模言語モデル (LLM) の開発見通しについて調査、整理、要約し、次のようにまとめました。包括的かつ最先端のレビュー。
- 論文タイトル: 大規模言語モデルの生涯学習に向けて: 調査
- 論文アドレス: https://arxiv.org/abs/2406.06391
- プロジェクトアドレス: https://github .com/qianlima-lab/awesome-lifelong-learning-methods-for-llm
図 1 は、ラージ言語での生涯学習の応用を示しています。モデル 人間の学習プロセスとの類似。この図は、2 つの並行した学習パスを通じた生涯学習における人間と大規模な言語モデルの進化を示しています。
1. 歩行: 人間は最も基本的なスキル (歩行など) から学習を開始します。 2. 自転車に乗る: 学習が進むにつれて、人間はより複雑なスキル (自転車に乗るなど) を習得します。 3. 車を運転する: 最終的に、人間はより複雑で高度なスキル (運転など) を習得できるようになります。 各ステップは、人間が生涯学習の過程で新しいスキルや知識を獲得し続けるプロセスを表しています。 1. 新しい言語 (新規言語): 大規模な言語モデルは、新しい言語を学習することから始まります (さまざまな自然言語の処理方法の学習など)。 2. 新しいドメイン: 次に、モデルは新しいドメインの知識 (自然言語処理から医療分野への拡張など) を学習します。 3. 新しい情報: 最終的に、モデルは言語であろうとドメインであろうと、新しい情報を学習して統合できます。 各ステップは、生涯学習プロセスにおいて知識を継続的に拡張および更新する大規模言語モデルのプロセスを表します。この図は、生涯学習のプロセスを強調しています。生涯学習は、基礎から上級まで段階的に進化する継続的なプロセスです。生涯学習は単なる知識の蓄積ではなく、ダイナミックで進化するプロセスです。 近年、生涯学習はますます人気の研究テーマとなっており、ニューラル ネットワークの生涯学習に関する大規模な調査が行われています。既存の研究のほとんどは、畳み込みニューラル ネットワーク (CNN) の生涯学習とグラフ ニューラル ネットワークの生涯学習のさまざまな応用シナリオに主に焦点を当てています。しかし、言語モデルの生涯学習に焦点を当てた文献はほんのわずかです。最近のレビューには、生涯学習に関する最新の文献が集められていますが、連続テキスト分類、連続固有表現認識、連続関係抽出、連続機械翻訳などのシナリオは取り上げられていません。また、検索ベースの生涯学習についての議論もほとんどありません。 。 このレビューは、12 のシナリオから始まる大規模な言語モデルの生涯学習方法に関する最初の包括的かつ体系的な調査です。
- 小説の分類: はじめに生涯学習に関する広範な文献を 12 のシナリオに分割する詳細な構造化フレームワークが開発されました。
- 普遍的なテクニック: 生涯学習のあらゆる状況に共通するテクニックが特定され、存在します。各シナリオの技術グループ。
- 将来の方向性: LLM 以前の時代にはあまり検討されていなかった、モデル拡張やデータ選択などのいくつかの新しいテクノロジーに重点を置きます。
このレビューは体系的にまとめられています既存の生涯学習技術の手法は、図2に示すように内部知識と外部知識の2つに分類されます。
- 内部知識とは、継続的な事前トレーニングや継続的な微調整を含む、完全または部分的なトレーニングを通じてモデル パラメーターに新しい知識を吸収することを指します。
-
外部知識とは、検索ベースの生涯学習や生涯学習用ツールなど、モデル パラメーターを更新せずに、ウィキペディアやアプリケーション プログラム インターフェイスなどの外部リソースから新しい知識をモデルに組み込むことを指します。
- 継続的な垂直ドメイン事前トレーニング: 特定の垂直分野 (金融、医療など) 用。
- 継続的な言語ドメイン事前トレーニング: 自然言語とコード言語の継続的な事前トレーニング。
- 継続的時間領域事前トレーニング: 時間関連データ (時系列データなど) の継続的事前トレーニング。
2. 継続的な微調整:
- 連続テキスト分類: テキスト分類タスク用 継続的な微調整。
- 継続的な固有表現認識:固有表現認識タスクの継続的な微調整。
- 継続的な関係抽出: 関係抽出タスクの継続的な微調整。
- 継続的機械翻訳: 機械翻訳タスクの継続的な微調整。
- 継続的な命令調整: モデルの継続的な学習は、命令の微調整によって実現されます。
- 継続的な知識編集: 知識を更新するための継続的な学習。
- 継続的調整: モデルを新しいタスクに調整するための継続的な学習。
1.検索ベースの生涯学習: 外部の知識ベースを検索することによって達成される生涯学習。
2. ツールベースの生涯学習: 外部ツールを呼び出すことで実現される生涯学習。
生涯学習の目標は、一連のタスクから言語モデルを学習し、自然言語を入力して目的の出力を生成することです。具体的には、質問と回答などの生成タスクの場合、入力と出力はそれぞれ質問と回答を表し、テキスト分類タスクの場合は入力と出力がテキストのコンテンツとターゲット言語を表します。出力はカテゴリ ラベルです。自己回帰言語モデルの事前トレーニング タスクの場合、入力は一連のトークンであり、出力は対応する次のトークンです。
概要では、生涯にわたる評価を紹介します学習効果の指標は主に、全体的なパフォーマンス、安定性、適応性の 3 つの観点から評価されます。
- 全体の測定: 平均精度 (AA) と平均を含む増分精度 (AIA)。 AA はすべてのタスクを学習した後のモデルの平均パフォーマンスを指しますが、AIA は各タスクを学習した後の履歴変化を考慮します。
- 安定性測定: 忘却測定 (FGT) および逆方向転送 (BWT) を含みます。 FGT は古いタスクの平均パフォーマンス低下を評価し、BWT は古いタスクの平均パフォーマンス変化を評価します。
- 可塑性測定: 新しいタスクにおけるモデルのパフォーマンスの平均改善である順方向伝達 (FWD) を含みます。
図 3 の概要 4主な生涯学習方法は、連続タスク (タスク
t-1 からタスク t) を処理する際に大規模な言語モデルの壊滅的な忘却問題に対処することが実証されています。各メソッドの説明は次のとおりです:
- 意味: このメソッドは、新しいタスクをトレーニングするときに使用されます。前のタスクからのデータをリプレイして、タスクを統合します。モデルの古いタスクの記憶。通常、再生されたデータはバッファに保存され、現在のタスクのデータとともにトレーニングに使用されます。主に以下が含まれます:
– エクスペリエンス リプレイ: 古いタスクのデータ サンプルの一部を保存し、新しいタスクの発生をトレーニングするときにこれらのデータを再利用することで忘れを減らします。
– 生成リプレイ: 古いデータを保存するのとは異なり、この方法では生成モデルを使用して疑似サンプルを作成し、それによって古いタスクの知識を新しいタスクのトレーニングに導入します。
- の図: 図 3 は、タスク t-1 からタスク t までのプロセスを示しています。モデルは、タスク をトレーニングしています。 、バッファ内の古いデータ (入力 t-1 ) が使用されます。
- 意味: この方法は、モデル パラメーターに正則化制約を課すことで、新しいタスクを学習するときにモデルが古いタスク パラメーターを過剰に調整するのを防ぎます。正則化制約は、モデルが古いタスクの記憶を保持するのに役立ちます。主に以下が含まれます:
– 重みの正規化: モデルパラメーターに追加の制約を課すことにより、新しいタスクをトレーニングする際の重要な重みの変更を制限し、それによって古いタスクの整合性を保護します。たとえば、L2 正則化や Elastic Weight Consolidation (EWC) は一般的な手法です。
– 特徴の正則化: 正則化は重みに作用するだけでなく、特徴空間内のモデルのパフォーマンスを制限することで、新しいタスクと古いタスクの間の特徴の分布が安定した状態を保つこともできます。
- の図: 図 3 は、タスク t-1 からタスク t までのプロセスを示しています。モデルは、タスク をトレーニングしています。 、パラメータの正規化はタスク t-1 のパフォーマンスを維持するために使用されます。
- 意味: このアプローチは、以前に学習した知識への干渉を最小限に抑えながら、新しいタスクをシームレスに統合するためにモデル構造を適応させることに重点を置いています。これには主に、図 4 の 6 つのメソッドが含まれます:
–(a) プロンプト チューニング: モデルの入力の前に「ソフト プロンプト」を追加し、モデルの生成または分類タスクをガイドします。この方法では、モデルのバックボーン構造を変更せずに、少数のパラメーター (つまり、プロンプト ワード) を調整するだけで済みます。
–(b) プレフィックス チューニング: トレーニングされた調整可能なパラメーターを入力シーケンスのプレフィックス部分に追加します。これらのパラメーターは、モデルがコンテキスト情報をより適切にキャプチャできるようにするために、Transformer レイヤーのセルフ アテンション メカニズムに挿入されます。
–(c) 低ランク適応 (LoRA、低ランク適応): LoRA は、大規模モデルの主な重みを変更せずに、特定のレベルで低ランク行列を追加することによって、新しいタスクに適応します。このアプローチにより、モデルのパフォーマンスを維持しながら、パラメーター調整の数が大幅に削減されます。
– (d) アダプター: アダプターは、モデルの異なる層の間に挿入されるトレーニング可能なモジュールです。これらのモジュールは、元のモデルの新しいタスクを変更せずに、少数の追加パラメーターで適応できます。通常、FFN (フィード フォワード ネットワーク) および MHA (マルチヘッド アテンション) 部分に適用されます。
–(e) エキスパートの混合: モデル内の特定のレイヤーまたはサブネットワークである特定の「エキスパート」モジュールを選択的にアクティブにすることによって、さまざまな入力を処理します。 Router モジュールは、どのエキスパート モジュールをアクティブにする必要があるかを決定します。
–(f) モデルの拡張: 元のレイヤー (Old Layer) を保持したまま、新しいレイヤー (New Layer) を追加することでモデルの容量を拡張します。このアプローチにより、モデルの容量を徐々に増やして、より複雑なタスク要件に対応できるようになります。
- 図: 図 3 は、タスク t-1 からタスク t までのプロセスを示しています。モデルが新しいタスクを学習するとき、一部のパラメーターは固定されています。一方、新しく追加されたモジュールは、新しいタスク (Trainable) をトレーニングするために使用されます。
- 意味: この方法は、知識の蒸留を通じて古いモデルの知識を新しいモデルに転送します。新しいタスクをトレーニングするとき、新しいモデルは現在のタスクのデータを学習するだけでなく、古いタスクの古いモデルの出力を模倣することで、古いタスクの知識を維持します。主に以下が含まれます:
– 新しいデータからの抽出: 学生モデルは教師モデルの指導の下で新しいタスクを学習し、古いデータ モデルの知識を抽出します。古い知識の忘れを減らすために。 – 古いデータからの蒸留: 古いデータに対する教師モデルのパフォーマンスを使用して、生徒モデルが新しいタスクを学習するようにガイドし、それによって古いデータを保持します。 。 – 擬似古いデータからの蒸留: 擬似古いデータ (擬似古いデータ) を生成することで、学生モデルは新しいタスクを学習できます 古い知識の記憶を維持します。 - 図: 図 3 は、タスク t-1 からタスク t への遷移を示しています。このプロセスでは、モデルが新しいタスクをトレーニングするときに、古いモデルの予測結果を模倣することで古いタスクの知識を維持します。
継続的な事前トレーニング-トレーニング 大規模な言語モデルの内部知識は、包括的な事前トレーニングにかかる高額なコストをかけずに更新できるため、大規模な言語モデルの機能が強化されます。現在の研究は垂直的、言語的、時間的領域に及び、壊滅的な忘却や時間的適応などの困難な問題に取り組んでいます。 経験の再生、知識の蒸留、パラメータの効率的な微調整、モデルの拡張、再加熱などのテクノロジーには、良い見通しが示されています。 連続垂直フィールド事前トレーニング-トレーニング (継続的垂直ドメイン事前トレーニング) は、以前に取得した知識を保持しながら、一連のドメイン固有のデータセットで言語モデルを継続的にトレーニングすることにより、モデルが複数の垂直分野またはタスクで適切に機能することを保証することを目的としています。
- 例: CorpusBrain++ は、バックボーン アダプター アーキテクチャとエクスペリエンス リプレイ戦略を使用して、現実世界の知識集約的な言語タスクに取り組みます。
- 例: Med-PaLM は、少数の例を使用して、医療分野における指示プロンプトのチューニングを紹介します。
- 例: ELLE特徴保持モデル拡張戦略を採用し、既存の事前トレーニング済み言語モデルの幅と深さを柔軟に拡張することで、知識の取得と統合の効率を向上させます。
- 例: LLaMA Pro は、Transformer ブロックを拡張し、新しいコーパスで微調整することにより、一般的な使用、プログラミング、数学タスクに優れています。
- 例: Gupta らによって提案された戦略では、新しいデータセットを導入するときに学習率を調整して、長期学習中に学習率が低くなりすぎないようにすることで、新しいデータセットへの適応効果を向上させます。
- 例: RHO -1 は、トレーニング プロセスに大きな影響を与えるトークンを優先する選択的言語モデル (SLM) を使用してトレーニングされます。
- 例: EcomGPT-CT は、半構造化された電子商取引データを使用したドメイン固有のタスクにおけるモデルのパフォーマンスを強化します。
継続的言語ドメイン事前トレーニング (継続的言語ドメイン事前トレーニング) は、言語モデルが以前の知識を忘れることなく新しいデータを継続的に統合し、変化する言語ドメインに適応できるようにすることを目的としています。
- 例: Yadav らは、教師による強制メカニズムを導入し、新しいタスクでのモデルの微調整をガイドする一連のプロンプトを作成することで、プロンプト チューニングを改善しました。
- 例: ModuleFormer と Lifelong-MoE は、専門家混合 (MoE) アプローチを使用して、モジュール性とモデル容量の動的増加を通じて LLM の効率と適応性を強化しています。
- 例: Ibrahim らによって提案されたリウォーミング手法は、新しいデータをトレーニングするときに学習率を一時的に高めることで、モデルが新しい言語に迅速に適応できるようにします。
連続time 継続的時間ドメイン事前トレーニングには、時間に敏感なデータに対する精度と関連性を維持するために、言語モデルを継続的に更新することが含まれます。 1. パフォーマンスの低下: Lazaridou らの研究では、将来のデータのモデル パフォーマンスが大幅に低下し、時間的一般化における LLM の困難さが浮き彫りになります。 2. 限定的な改善: Röttger らは、純粋なドメイン適応と比較して、時間的適応ではマスク言語モデル タスクがわずかに改善されるものの、下流タスクのパフォーマンスの向上は顕著ではないことを発見しました。 これらの方法と研究を通じて、著者はさまざまな次元での継続的な事前トレーニングの方法と課題を実証し、垂直領域、言語領域、時間領域での応用を強調します。生涯学習の必要性と有効性。 継続的な事前トレーニングにより内部機能を強化できます大規模言語モデルの知識、これに基づいた継続的な微調整により、大規模言語モデルの内部知識が強化され、テキスト分類、固有表現認識、関係抽出、機械翻訳、または一般的な生成タスクなどの特定のタスクに大規模言語モデルが適応されます。指導の調整、知識など人間の好みに合わせて編集されています。壊滅的な忘却やタスクへの干渉などの課題に対処するために、蒸留、再生、正則化、アーキテクチャベース、勾配ベースの手法などの手法が採用されています。著者らは、図 5 に 7 つの連続した微調整シナリオを示しています。
この図は、7 つの異なるタイプのタスクが継続的な学習を通じて大規模な言語モデルにどのように実装されるかを示しています。以下に各部の詳細を説明します。 - 例: 連続テキスト分類タスクは、変化する分類ニーズに適応できるように、新しい分類カテゴリ (目的: 転送 -> 目的: クレジット スコア -> 目的: 楽しい事実など) を徐々に導入することでモデルをトレーニングします。
- の例: 継続的な名前付きエンティティ認識タスクは、モデルが新しいエンティティの能力を認識しながら古いエンティティの認識を維持できるように、特定のエンティティを認識しながら、新しいエンティティ タイプ (スポーツ選手 -> スポーツ チーム -> 政治家など) を徐々に導入する方法を示します。 。
- 例:継続的関係抽出タスクは、新しい関係タイプ (関係: 創設者 -> 関係: 州または出身地 -> 関係: 本社の国など) を継続的に導入することによって、モデルが関係抽出機能を徐々に拡張する方法を示します。
- 例:継続的なナレッジ編集タスクでは、モデルのナレッジ ベースを継続的に更新することで、最新の事実に正確に答えることができます (米国の大統領は誰ですか? -> クリスティアーノ ロナウドは現在どのクラブでプレーしていますか? -> 最後の冬はどこでしたか?オリンピック開催?)
- 例:継続的機械翻訳タスクは、モデルの翻訳機能をさまざまな言語 (英語 -> 中国語、英語 -> スペイン語、英語 -> フランス語など) に徐々に拡張することで、多言語環境におけるモデルの適応性を実証します。
- 例: 継続的命令微調整タスクは、新しい命令タイプ (要約 -> スタイル転送 -> 数学など) を段階的に導入することによって、複数のタスク タイプでモデルのパフォーマンス能力をトレーニングします。
- 例: 連続アライメント タスクは、新しいアライメント目標 (有益で無害 -> 簡潔で組織的 -> ポジティブな感情など) を導入することにより、さまざまな道徳的および行動基準の下でのモデルの継続的な学習能力を実証します。
継続的な事前トレーニングLLM の生涯学習には継続的な微調整が不可欠ですが、LLM が大きくなり強力になるにつれて、パラメータを変更せずに大規模な言語モデルを作成できる 2 つの新しい方向性がますます普及しています。言語モデル。著者らは、検索ベースの生涯学習とツールベースの生涯学習を検討しています。どちらのアプローチも、LLM で生涯学習を達成する有望な方法であるためです。図 6 は両方のアプローチを示しています。
- はじめに: 世界中の情報が増え続ける中、スケールアップと進化過去のデータに基づいてトレーニングされた静的モデルはすぐに古くなり、新しい開発に関するコンテンツを理解したり生成したりできなくなります。検索ベースの生涯学習は、大規模な言語モデルが外部ソースから最新の知識を取得して吸収するという重要なニーズを解決し、モデルは必要に応じてこれらの外部リソースを取得することで知識ベースを補完または更新します。これらの外部リソースは、現在の大規模な知識ベースを提供し、事前トレーニングされた LLM の静的特性を強化するための重要な補完的な資産を提供します。
- 例: 図内のこれらの外部リソースは、モデルによってアクセスおよび取得できます。ウィキペディア、書籍、データベースなどの外部情報ソースにアクセスすることで、モデルは知識を更新し、新しい情報に遭遇したときに適応することができます。
- はじめに: ツールベースの生涯学習は、その機能を静的な知識を超えて拡張し、環境と動的に対話できるようにする必要性から生まれました。実際のアプリケーションでは、モデルは多くの場合、直接的なテキストの生成や解釈を超える操作を含むタスクを実行する必要があります。
- 例: 図のモデルは、これらのツールを使用して自身の機能を拡張および更新し、外部ツールとの対話を通じて生涯学習を可能にします。たとえば、モデルはアプリケーション プログラミング インターフェイスを通じてリアルタイム データを取得したり、物理ツールを通じて外部環境と対話して特定のタスクを完了したり、新しい知識を取得したりできます。
- 壊滅的な忘却: これは生涯学習の中核的な課題の 1 つであり、新しい情報の導入により上書きされる可能性があります。モデルが以前に学習したこと。
- 可塑性と安定性のジレンマ: モデルの学習能力と安定性の維持の間のバランスを見つけることが非常に重要であり、これはモデルが新しい知識を保持しながら新しい知識を獲得する能力に直接影響します。幅広い一般的な能力。
- 高額な計算コスト: 大規模な言語モデルを完全に微調整するための計算要件は非常に高くなる可能性があります。
- モデルの重みや事前トレーニングされたデータが利用できない: プライバシー、独自の制限、または商用ライセンスのため、生のトレーニング データやモデルの重みは、さらなる改善のために利用できないことがよくあります。
- 特定のタスクから一般的なタスクへ: 研究は、特定のタスク (テキスト分類、固有表現認識など) から、命令調整、知識編集などのより広範囲の一般的なタスクに徐々に移行していきます。
- 完全な微調整から部分的な微調整へ: 完全な微調整、部分的な微調整戦略 (アダプター層、プロンプト チューニング、 LoRA) の人気はますます高まっています。
- 内部知識から外部知識へ: 頻繁な内部更新の制限を克服するために、検索拡張生成やツールなどの外部知識ソースを使用する戦略が増えています。学習によりモデルが可能になります。現在の外部データに動的にアクセスして活用します。
- マルチモーダル生涯学習: テキストを超えた複数のモダリティ (画像、ビデオ、オーディオ、時系列データ、ナレッジ グラフなど) を生涯学習に統合し、より包括的で適応性のある性モデルを開発します。
- 効率的な生涯学習: 研究者たちは、モデルの枝刈り、モデルの結合、モデルの拡張、その他の方法など、モデルのトレーニングと更新の計算要件を管理するためのより効率的な戦略の開発に取り組んでいます。
- 普遍的な生涯学習: 最終的な目標は、大規模な言語モデルが、静的なデータセットのみに依存することなく、新しい知識を積極的に獲得し、環境との動的な相互作用を通じて学習できるようにすることです。
著者は既存の研究を分割するinto それは、12 の生涯学習シナリオの包括的な概要を提供します。この分析はまた、壊滅的な忘却の管理、計算効率の確保、知識獲得における特異性と一般性の間のバランスを維持する必要性を強調しています。この分野が進化し続けるにつれて、これらの高度な戦略の統合は、次世代の人工知能システムを形成する上で重要な役割を果たし、真に人間のような学習と適応能力の実現に近づくのに役立ちます。 これらの技術的アプローチとそれぞれのカテゴリの詳細な研究を通じて、このレビューは、生涯学習機能を生涯学習ツールに統合して、実際のパフォーマンスを向上させることを強調することを目的としています。世界 アプリケーションの適応性、信頼性、および全体的なパフォーマンス。同時に、研究者やエンジニアに、生涯学習テクノロジーをより深く理解して適用し、大規模な言語モデルのさらなる開発を促進するための包括的な視点を提供します。記事に興味があれば、元の論文をチェックして研究の詳細を学ぶことができます。 以上が200以上の関連研究を統合した、大規模モデル「生涯学習」の最新レビューはこちらの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。