目次
研究者は、複数の要素から構成される行列 W = {W_q, W_k, W_v, W_o, U_in, U_out} に焦点を当てます。これは、層パーセプトロン (MLP) と注目層の行列で構成されます。レイヤーの数は研究者の介入のレベルを表し、最初のレイヤーのインデックスは 0 です。たとえば、Llama-2 は 32 レベルなので、ℓ ∈ {0, 1, 2,・・・31} と表されます。
ホームページ テクノロジー周辺機器 AI 特定の層のコンポーネントの 90% 以上が削除されても、トランス モデルの次元削減は減少し、LLM のパフォーマンスは変わりません。

特定の層のコンポーネントの 90% 以上が削除されても、トランス モデルの次元削減は減少し、LLM のパフォーマンスは変わりません。

Dec 28, 2023 pm 03:44 PM
ai モデル

大規模モデルの時代では、Transformer だけで科学研究分野全体をサポートします。リリース以来、Transformer ベースの言語モデルは、さまざまなタスクで優れたパフォーマンスを実証してきました。基盤となる Transformer アーキテクチャは、自然言語モデリングと推論において最先端のものとなり、コンピューター ビジョンなどの分野でも有望であることが示されています。

#現在の Transformer アーキテクチャは非常に大規模で、通常、トレーニングと推論に多くのコンピューティング リソースを必要とします。

これは意図的です。これは、より多くのパラメーターまたはデータを使用してトレーニングされた Transformer が他のモデルよりも明らかに能力が高いためです。それにもかかわらず、Transformer ベースのモデルやニューラル ネットワークでは、学習した仮説を保存するためにすべての適合パラメーターを必要としないことが、研究の成果によって示されています。

一般的に言えば、大規模なオーバーパラメータ化はモデルをトレーニングするときに役立つように見えますが、これらのモデルは推論前に大幅に枝刈りされる可能性があります。調査によると、ニューラル ネットワークは多くの場合、有意な影響を与えることなく 90 % 以上の重みを削除できます。パフォーマンスの低下。この現象により、研究者はモデル推論に役立つ枝刈り戦略の研究に目を向けるようになりました。

MIT と Microsoft の研究者が「真実はそこにある」というタイトルの記事で報告しました驚くべき発見がなされました論文: レイヤー選択的ランキング削減による言語モデルの推論能力の向上。彼らは、Transformer モデルの特定のレイヤーで細かい枝刈りを行うと、特定のタスクにおけるモデルのパフォーマンスを大幅に向上させることができることを発見しました。

特定の層のコンポーネントの 90% 以上が削除されても、トランス モデルの次元削減は減少し、LLM のパフォーマンスは変わりません。

  • 論文アドレス: https: //arxiv.org/pdf/2312.13558.pdf
  • 紙のホームページ: https://pratyushasharma.github.io/laser/

研究では、この単純な介入を LASER (LAyer SElective Rankduction) と呼んでいます。特異値分解を通じて、Transformer モデルの特定の層の学習重み行列の高次成分を選択的に削減することにより、LLM のパフォーマンスが大幅に向上します。この操作は、モデルのトレーニングが完了した後に実行でき、追加のパラメーターやデータは必要ありません

操作中に、モデル固有の重み行列とレイヤーを実行することによって重み削減が実行されます。 。この研究では、多くの同様のマトリックスが重量を大幅に削減でき、コンポーネントの 90% 以上が除去されるまでパフォーマンスの低下は一般に観察されないこともわかりました。これらの要因を減らすと、精度が大幅に向上する可能性があります。興味深いことに、この発見は自然言語だけでなく、パフォーマンスを向上させる強化学習にも当てはまり、さらに、この研究では、削除によってパフォーマンスを向上させるために、高次のコンポーネントに格納されているものを推測することも試みられています。この研究では、LASER を使用して質問に答えた後、元のモデルは主に高頻度の単語 (「the」、「of」など) を使用して応答したことがわかりました。これらの単語は正解の意味タイプとさえ一致しません。つまり、介入がなければ、これらのコンポーネントによってモデルは無関係な高頻度単語を生成します

ただし、After ではある程度ランクを下げると、モデルの答えを正しいものに変換できます。

これを理解するために、この研究では、残りのコンポーネントがそれぞれ何をエンコードしているのかも調査し、高次の特異ベクトルのみを使用して重み行列を近似しました。これらのコンポーネントは、正解と同じ意味カテゴリ内の異なる応答または共通の高頻度単語を記述していることが判明しました。

これらの結果は、ノイズの多い高次コンポーネントが低次コンポーネントと組み合わされると、それらの矛盾する応答により、不正確である可能性がある平均的な応答が生成されることを示唆しています。図 1 は、Transformer のアーキテクチャと LASER の手順を視覚的に表したものです。ここでは、多層パーセプトロン (MLP) の特定の層の重み行列が、その低ランク近似によって置き換えられます。

レーザーの概要

研究者はレーザー介入を詳細に紹介しました。シングルステップレーザー介入は 3 つのパラメータ (τ、ℓ、ρ) によって定義されます。これらのパラメータは一緒になって、低ランク近似によって置き換えられる行列と近似の次数を記述します。研究者は、介入する行列をパラメータの種類に応じて分類します。

研究者は、複数の要素から構成される行列 W = {W_q, W_k, W_v, W_o, U_in, U_out} に焦点を当てます。これは、層パーセプトロン (MLP) と注目層の行列で構成されます。レイヤーの数は研究者の介入のレベルを表し、最初のレイヤーのインデックスは 0 です。たとえば、Llama-2 は 32 レベルなので、ℓ ∈ {0, 1, 2,・・・31} と表されます。

最終的に、ρ ∈ [0, 1) は、低ランクの近似を行うときに最大ランクのどの部分を保存する必要があるかを示します。たとえば、特定の層のコンポーネントの 90% 以上が削除されても、トランス モデルの次元削減は減少し、LLM のパフォーマンスは変わりません。 と仮定すると、行列の最大ランクは d です。研究者らはこれを ⌊ρ・d⌋- 近似に置き換えました。

#以下は必須です 以下の図 1 に、LASER の例を示します。図中の記号 τ = U_in および ℓ = L は、MLP の第 1 層の重み行列が L 層の Transformer ブロックで更新されることを示します。ランク k 近似の k 値を制御するために使用されるパラメータもあります。

特定の層のコンポーネントの 90% 以上が削除されても、トランス モデルの次元削減は減少し、LLM のパフォーマンスは変わりません。

#LASER は、ネットワーク内の特定の情報の流れを制限することができ、予想外 予想外にパフォーマンスに大きなメリットがもたらされます。これらの介入は、一連の介入を任意の順序で適用するなど、簡単に組み合わせることができます。

特定の層のコンポーネントの 90% 以上が削除されても、トランス モデルの次元削減は減少し、LLM のパフォーマンスは変わりません。レーザー法は、そのような介入を単に探索し、最大の利益をもたらすように修正されたものです。ただし、これらの介入を組み合わせる方法は他にもたくさんあり、それが今後の研究の方向性となります。

実験結果

実験部分では、研究者は PILE データセットで事前トレーニングされた GPT-J モデルを使用しました。レイヤー数は27、パラメータは60億通りです。次に、モデルの動作が CounterFact データセットで評価されます。このデータセットには、(トピック、関係、回答) トリプルのサンプルが含まれており、質問ごとに 3 つの言い換えプロンプトが提供されます。

まず、CounterFact データセット上の GPT-J モデルを分析しました。図 2 は、Transformer アーキテクチャの各行列にさまざまな量のランク削減を適用した後のデータセットの分類損失への影響を示しています。各 Transformer レイヤーは、入力行列と出力行列が個別に示された 2 層の小さな MLP で構成されています。異なる色は、除去されたコンポーネントの異なるパーセンテージを表します。

上の図 2 と下の表 1 に示すように、解釈の精度と堅牢性の向上に関して、研究者らは、単一レイヤーでランク削減を実行すると、CounterFact データセット上の GPT-J モデルの事実精度が 13.1% から 24.0% に増加したことを発見しました。これらの改善はランクの削減の結果のみであり、モデルのさらなるトレーニングや微調整は必要ないことに注意することが重要です。

特定の層のコンポーネントの 90% 以上が削除されても、トランス モデルの次元削減は減少し、LLM のパフォーマンスは変わりません。

#ダウンランクリカバリを実行するとどのファクトが復元されますか?研究者らは、図 3特定の層のコンポーネントの 90% 以上が削除されても、トランス モデルの次元削減は減少し、LLM のパフォーマンスは変わりません。

に示すように、ランク削減によって取得されたファクトがデータセットに現れることはほとんどないことを発見しました。コンポーネントには何が保存されますか?研究者らは、以下の図 5 (a) に示すように、(LASER のような低次成分を使用する代わりに) 高次成分を使用して最終的な重み行列を近似します。彼らは、以下の図 5 (b) に示すように、さまざまな数の高次成分を使用して行列を近似したときに、予測された答えに対する真の答えの平均コサイン類似度を測定しました。

特定の層のコンポーネントの 90% 以上が削除されても、トランス モデルの次元削減は減少し、LLM のパフォーマンスは変わりません。

研究者らは最終的に、複数の言語理解タスクで発見した 3 つの異なる LLM の一般化可能性を評価しました。各タスクについて、生成精度、分類精度、損失という 3 つの指標を使用してモデルのパフォーマンスを評価しました。表 1 の結果によると、行列のランクが大幅に低下した場合でも、モデルの精度が低下することはなく、むしろモデルのパフォーマンスを向上させることができます。

以上が特定の層のコンポーネントの 90% 以上が削除されても、トランス モデルの次元削減は減少し、LLM のパフォーマンスは変わりません。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ビットコインの価値はいくらですか ビットコインの価値はいくらですか Apr 28, 2025 pm 07:42 PM

ビットコインの価格は20,000ドルから30,000ドルの範囲です。 1。ビットコインの価格は2009年以来劇的に変動し、2017年には20,000ドル近くに達し、2021年にはほぼ60,000ドルに達しました。2。価格は、市場需要、供給、マクロ経済環境などの要因の影響を受けます。 3.取引所、モバイルアプリ、ウェブサイトを通じてリアルタイム価格を取得します。 4。ビットコインの価格は非常に不安定であり、市場の感情と外部要因によって駆動されます。 5.従来の金融市場と特定の関係を持ち、世界の株式市場、米ドルの強さなどの影響を受けています。6。長期的な傾向は強気ですが、リスクを慎重に評価する必要があります。

2025年のトップ10の通貨取引プラットフォームのどれがトップ10の通貨取引プラットフォームの1つです 2025年のトップ10の通貨取引プラットフォームのどれがトップ10の通貨取引プラットフォームの1つです Apr 28, 2025 pm 08:12 PM

2025年の世界の上位10の暗号通貨取引所には、Binance、Okx、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、Kucoin、Bittrex、Poloniexが含まれます。これらはすべて、高い取引量とセキュリティで知られています。

世界のトップ10の通貨取引プラットフォームのどれがトップ10の通貨取引プラットフォームの最新バージョンです 世界のトップ10の通貨取引プラットフォームのどれがトップ10の通貨取引プラットフォームの最新バージョンです Apr 28, 2025 pm 08:09 PM

世界の上位10の暗号通貨取引プラットフォームには、Binance、Okx、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、Kucoin、Poloniexが含まれます。これらはすべて、さまざまな取引方法と強力なセキュリティ対策を提供します。

トップ10の仮想通貨取引アプリは何ですか?最新のデジタル通貨交換ランキング トップ10の仮想通貨取引アプリは何ですか?最新のデジタル通貨交換ランキング Apr 28, 2025 pm 08:03 PM

Binance、OKX、Gate.ioなどの上位10のデジタル通貨交換は、システムを改善し、効率的な多様化したトランザクション、厳格なセキュリティ対策を改善しました。

復号化GATE.IO戦略のアップグレード:Memebox 2.0でCrypto Asset Managementを再定義する方法は? 復号化GATE.IO戦略のアップグレード:Memebox 2.0でCrypto Asset Managementを再定義する方法は? Apr 28, 2025 pm 03:33 PM

Memebox 2.0は、革新的なアーキテクチャとパフォーマンスのブレークスルーを通じて、暗号資産管理を再定義します。 1)3つの主要な問題点を解決します。資産サイロ、収入の減少、セキュリティと利便性のパラドックスです。 2)インテリジェントアセットハブ、動的リスク管理およびリターンエンハンスメントエンジン、クロスチェーン移動速度、平均降伏率、およびセキュリティインシデント応答速度が向上します。 3)ユーザーに、ユーザー価値の再構築を実現し、資産の視覚化、ポリシーの自動化、ガバナンス統合を提供します。 4)生態学的なコラボレーションとコンプライアンスの革新により、プラットフォームの全体的な有効性が向上しました。 5)将来的には、スマート契約保険プール、予測市場統合、AI主導の資産配分が開始され、引き続き業界の発展をリードします。

トップ通貨取引プラットフォームは何ですか?トップ10の最新の仮想通貨交換 トップ通貨取引プラットフォームは何ですか?トップ10の最新の仮想通貨交換 Apr 28, 2025 pm 08:06 PM

現在、上位10の仮想通貨交換にランクされています。1。Binance、2。Okx、3。Gate.io、4。CoinLibrary、5。Siren、6。HuobiGlobal Station、7。Bybit、8。Kucoin、9。Bitcoin、10。BitStamp。

推奨される信頼できるデジタル通貨取引プラットフォーム。世界のトップ10のデジタル通貨交換。 2025 推奨される信頼できるデジタル通貨取引プラットフォーム。世界のトップ10のデジタル通貨交換。 2025 Apr 28, 2025 pm 04:30 PM

推奨される信頼できるデジタル通貨取引プラットフォーム:1。OKX、2。Binance、3。Coinbase、4。Kraken、5。Huobi、6。Kucoin、7。Bitfinex、8。Gemini、9。Bitstamp、10。Poloniex、これらのプラットフォームは、セキュリティ、ユーザーエクスペリエンス、ユーザーエクスペリエンス、ユーザーエクスペリエンス、ユーザーエクスペリエンスのデジタルエクスペリエンス、デジタルエクスペリエンスのデジタルエクスペリエンス、デジタルエクスペリエンスのために知られています。

CでChronoライブラリを使用する方法は? CでChronoライブラリを使用する方法は? Apr 28, 2025 pm 10:18 PM

CでChronoライブラリを使用すると、時間と時間の間隔をより正確に制御できます。このライブラリの魅力を探りましょう。 CのChronoライブラリは、時間と時間の間隔に対処するための最新の方法を提供する標準ライブラリの一部です。 Time.HとCtimeに苦しんでいるプログラマーにとって、Chronoは間違いなく恩恵です。コードの読みやすさと保守性を向上させるだけでなく、より高い精度と柔軟性も提供します。基本から始めましょう。 Chronoライブラリには、主に次の重要なコンポーネントが含まれています。STD:: Chrono :: System_Clock:現在の時間を取得するために使用されるシステムクロックを表します。 STD :: Chron

See all articles