Xi Xiaoyao Science and Technology Talk 原著者 | Xiaoxi、Python
大規模モデルの巨大なサイズの背後には、「大規模モデルをどのように更新する必要があるか?」という直観的な疑問があります。
in 大規模モデルの非常に膨大なコンピューティング オーバーヘッドの下では、大規模モデルの知識を更新することは単純な「学習タスク」ではありません。理想的には、世界のさまざまな状況が複雑に変化する中、大規模モデルもいつでもどこでも時代に追いつくことができる必要があります。しかし、新しい大規模なモデルをトレーニングする計算負荷のため、大規模なモデルをすぐに更新することはできません。そこで、特定の分野のモデル データに悪影響を与えることなく効果的に処理することを実現するための新しい概念「モデル編集」が生まれました。他の入力の結果。
そのうち、 は の「実質的な隣接」を表し、 の範囲を超えた領域を表します。編集モデルは、「信頼性」「普遍性」「局所性」の3点を満たしている必要があり、信頼性とは、編集前のモデルの誤り例を正しく出力できることを意味し、編集モデルの平均精度で判断できます。測定、普遍性とは、モデルが「有効な近傍」に対して正しい出力を提供できることを意味します。モデルは、編集範囲を超えた例でも編集前の精度を維持する必要があります。局所性は、平均を個別に測定することで特徴付けることができます。編集前後の精度は、以下の図に示すように、「トランプ」を編集する位置で、その他のいくつかの公開特性は変更しないでください。同時に、「大統領」と同様の特性を持っているにもかかわらず、「国務長官」などの他の主体は影響を受けるべきではありません。 本日ご紹介する浙江大学の論文は、大規模モデルの観点から、大規模モデル時代のモデル編集の問題点と手法について詳しく解説しています。既存のテクノロジーをより包括的に評価し、コミュニティに手法の選択に関する有意義な意思決定の提案と洞察を提供するために、新しいベンチマーク データ セットと評価指標を構築しました: 論文タイトル: 大規模言語モデルの編集: 問題、方法、機会論文リンク: https://arxiv.org/pdf/2305.13172.pdf主流の方法現在の大規模言語のモデル編集方法モデル (LLM) は、以下の図に示すように、主に 2 つのパラダイムに分けることができます。つまり、(a) 元のモデルのパラメータを変更せずに維持することと、図 (a) と (b) に示すように追加のパラメータを使用することです)。変更されたモデルのパラメータ。 まず、パラメータを追加する比較的簡単な方法を見てみましょう。この方法は、メモリまたはメモリベースのモデル編集方法とも呼ばれます。代表的な方法である SERAC は、ミッチェル氏の「論文「モデル編集」の核となるアイデアは、モデルの元のパラメーターを変更せずに維持し、独立したパラメーター セットを通じて変更されたファクトを再処理することです。具体的には、このタイプの方法では、通常、最初に「範囲分類子」を追加します。新しい入力が「再編集」されたファクトの範囲内にある場合、入力は独立したパラメータ セットを使用して処理され、キャッシュ内の「正解」の選択確率が高くなります。 SERAC に基づいて、T-Patcher と CaliNET は、(追加のモデルをプラグインする代わりに) PLM のフィードフォワード モジュールに追加のトレーニング可能なパラメーターを導入します。これらのパラメーターは、モデル編集の効果を達成するために、変更されたファクト データ セットでトレーニングされます。もう 1 つの主要なカテゴリのメソッドである、元のモデルのパラメータを変更する方法は、主に Δ マトリックスを使用してモデル内の一部のパラメータを更新します。メタ学習メソッドには 2 つのタイプがあります。名前からわかるように、Locate-Then-Edit メソッドは、最初にモデル内で主要な影響を与えるパラメーターを特定し、次に特定されたモデル パラメーターを変更してモデル編集を実装します。主な手法としては、モデル内の「知識ニューロン」を特定することで主な影響パラメータを決定し、これらのニューロンを更新することでモデルを更新するナレッジ ニューロン法 (KN) などがあります。ROME と呼ばれる別の手法は、KN と同様の考え方を持ち、因果関係中間分析による編集領域の更新に加えて、一連の編集記述を更新するために使用できる MEMIT メソッドもあります。このタイプの方法の最大の問題は、一般に事実知識の局所性の仮定に依存していることですが、この仮定は広く検証されておらず、多くのパラメーターを編集すると予期しない結果が生じる可能性があることです。
メタ学習メソッドは、Locate-Then-Edit メソッドとは異なります。メタ学習メソッドは、ハイパー ネットワーク メソッドを使用し、特にナレッジ エディター メソッドで、ハイパー ネットワークを使用して別のネットワークの重みを生成します。著者は双方向 LSTM を使用して、各データ ポイントがモデルの重みにもたらす更新を予測し、それによって編集ターゲットの知識の制約付き最適化を実現します。この種の知識編集手法は、LLM のパラメータが膨大であるため、LLM に適用するのが困難であるため、Mitchell らは、単一の編集記述で効率的に LLM を更新できる MEND (Model Editor Networks with Gradient Decomposition) を提案しました。 update この方法では、主に勾配の低ランク分解を使用して大規模モデルの勾配を微調整することで、LLM へのリソースの更新を最小限に抑えることができます。 Locate-Then-Edit メソッドとは異なり、メタ学習メソッドは通常、時間がかかり、より多くのメモリ コストを消費します。
これらのさまざまなメソッドは、2 つの主流データ セット ZsRE (逆変換を使用した質問と回答のデータ セット) で使用されます。逆変換を使用すると、有効フィールドとして書き換えられます) および COUNTERFACT (反事実データ セット、対象エンティティを有効フィールドとして同義のエンティティに置き換えます) 実験は次の図に示されています。実験は主に 2 つの比較的大きな LLM T5- に焦点を当てています。 XL (3B) および GPT-J (6B) は基本モデルであり、効率的なモデル エディターでは、モデルのパフォーマンス、推論速度、ストレージ スペースのバランスを取る必要があります。
最初の列の微調整 (FT) の結果を比較すると、SERAC と ROME が ZsRE および COUNTERFACT データ セットで良好なパフォーマンスを示し、特に SERAC は複数のデータ セットで 90% 以上を達成したことがわかります。その結果、MEMIT は SERAC や ROME ほど汎用性は高くありませんが、信頼性と局所性の点で優れています。 T-Patcher 法は非常に不安定であり、COUNTERFACT データセットでは信頼性と局所性は優れていますが、一般性に欠けており、GPT-J では信頼性と汎用性は優れていますが、局所性の性能が劣っています。 KE、CaliNET、KN のパフォーマンスが低いことは注目に値しますが、「小規模モデル」でこれらのモデルが達成する優れたパフォーマンスと比較すると、これらの手法が大規模モデルの環境にはあまり適応していないことが実験で証明される可能性があります。
時間の観点から見ると、ネットワークがトレーニングされると、KE と MEND は非常にうまく機能しますが、T-Patcher などの方法は時間がかかりすぎます。
#メモリ消費量を見ると、ほとんどのメソッドは同じ大きさのメモリを消費しますが、追加のパラメータを導入するメソッドには追加のメモリ オーバーヘッドが発生します。 同時に、通常、モデル編集操作では、バッチ入力編集情報と逐次入力編集情報も考慮する必要があります。つまり、複数のファクト情報を一度に更新することと、複数のファクト情報を順次更新することにより、バッチ入力の全体的なモデル効果が考慮されます。情報の編集を次の図に示します。MEMIT は 10,000 個を超える情報の同時編集をサポートし、MEND と SERAC のパフォーマンスが低い一方で、両方のメトリクスのパフォーマンスが安定したままであることを保証できることがわかります。 ##シーケンシャル入力に関しては、SERAC と T-Patcher は良好かつ安定したパフォーマンスを示しましたが、ROME、MEMIT、および MEND はすべて、一定量の入力後にモデルのパフォーマンスが急激に低下しました。
#最後に、著者は調査の結果、これらのデータセットの現在の構築および評価指標は主に文章の表現の変更のみに焦点を当てており、モデル編集には深く踏み込んでいないことを発見しました。 「ワッツ・ハンフリーはどの大学に通っていましたか?」に対する答えがトリニティ・カレッジからミシガン大学に変更されたかどうかなど、多くの関連する論理的事実が変更されました。明らかに、モデルに「ワッツ・ハンフリーはどの都市に住んでいましたか?」と尋ねた場合、モデルはハートフォードではなくアナーバーに答える必要があるため、論文の著者は、知識伝達における編集されたモデルの有効性を測定するために、最初の 3 つの評価指標に基づく「伝達性」指標を導入しました。 この目的を達成するために、著者は GPT-4 を使用して、元の質問に対する答えを から に変更し、正しい答えを含む別の質問を構築することで新しいデータセットを構築しました。に、トリプレットを形成し、編集されたモデルを入力し、モデルが正しく出力できれば、編集されたモデルが「移植性」を持っていることが証明されます。この方法に従って、論文では、以下に示すように、いくつかの既存の方法の移植性スコアをテストしました。 : ほとんどのモデル編集方法は移植性の点で理想的ではないことがわかり、かつてはうまく機能していた SERAC の移植性の精度もあまり良くありません。 10% に対して、比較的優れた ROME と MEMIT は約 50% にすぎません。これは、現在のモデル編集方法では、編集された知識の拡大と促進を達成することがほとんど困難であり、モデル編集にはまだ長い道のりがあることを示しています。 議論と今後モデル編集プリセットの問題は、いかなる意味においても、将来のいわゆる「ビッグモデル時代」において大きな可能性を秘めており、モデルの問題は編集を改善する必要がある 「モデルの知識はどのパラメータに保存されているのか?」や「モデルの編集操作が他のモジュールの出力に影響を及ぼさないようにするにはどうすればよいか?」など、一連の非常に難しい質問を検討します。一方、モデルが「古い」という問題を解決するには、モデルを「編集」させるだけでなく、モデルを「生涯学習」させ、モデルの編集であろうと機微な知識を「忘れさせ」てもよいというアイデアもあります。このような研究は、LLM のセキュリティとプライバシーの問題に有意義な貢献をするでしょう。以上が大規模なモデルの知識がなくなったらどうすればよいでしょうか?浙江大学チームは、大規模モデルのパラメータを更新する方法、つまりモデル編集を研究していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。