ホームページ > テクノロジー周辺機器 > AI > LLMにスパース自動エンコーダーを備えた特徴回路の定式化

LLMにスパース自動エンコーダーを備えた特徴回路の定式化

王林
リリース: 2025-02-26 01:46:08
オリジナル
616 人が閲覧しました

大規模な言語モデル(LLMS)は、人間のようなテキストの生成から質問への回答まで、さまざまなタスクを実行できる顕著な進歩を遂げています。ただし、これらのモデルがどのように機能するかを理解することは、特にニューロンに特徴が混合されている重層と呼ばれる現象があるため、元のモデル構造から人間の理解可能な表現を抽出することが非常に困難であるためです。これが、スパースの自動エンコーダーのような方法が、解釈可能性を改善するために機能を解くことができるように見える理由です。

このブログ投稿では、スパース自動エンコーダーを使用して、オブジェクトと動詞の一貫性の特に興味深いケースでいくつかの機能ループを探し、モデルコンポーネントがタスクにどのように貢献するかを理解します。

重要な概念

機能loop

ニューラルネットワークのコンテキストでは、機能ループは、ネットワークが入力機能を組み合わせて複雑なパターンをより高いレベルで形成する方法を学習する方法です。 「ループ」の比phorを使用して、この処理方法が電子回路の信号を処理して組み合わせるプロセスを思い出させるため、「ループ」のさまざまな層で機能がどのように処理されるかを説明します。

これらの特徴ループは、ニューロンと層の間の接続を通じて徐々に形成されます。そこでは、各ニューロンまたは層が入力機能の変換に責任があり、それらの相互作用は最終予測を行うために協力して有用な機能の組み合わせにつながります。

以下は特徴ループの例です。多くの視覚ニューラルネットワークでは、「ループ」を見つけることができます。異なる角度で曲線を検出するユニットのファミリーとして。曲線検出器は、主に初期の複雑でない曲線検出器で構成されています。ライン検出器の実装。これらの曲線検出器は、次のレイヤーで使用され、3Dジオメトリと複雑な形状検出器が作成されます[1]。

次の章では、LLMの主題予定の一貫したタスクの機能ループを調べます。

オーバーレイとスパースオートエンコーダー

機械学習のコンテキストでは、モデルのニューロンが単一の異なる機能ではなく、複数の重複する機能を表しているという現象を参照して、重ね合わせを観察することがあります。たとえば、InceptionV1には、猫の顔、車の前面、猫の脚に反応するニューロンが含まれています。

これは、スパースオートエンコーダー(SAE)が行うことです。

SAEは、ネットワークのアクティベーションをまばらな機能にブロック解除するのに役立ちます。これらのまばらな機能は、人間がしばしば理解できるため、モデルをよりよく理解することができます。 SAEをLLMモデルの隠されたレイヤーアクティベーションに適用することにより、モデルの出力に寄与する機能を分離できます。

以前のブログ投稿でSAEの仕組みの詳細を見つけることができます。

ケーススタディ:件名の一貫性

件名の整合性

対象と予定の一貫性は、英語の基本的な文法ルールです。文の主題と述語動詞は、量、すなわち特異または複数の一貫性がなければなりません。たとえば、

  • "cat を実行します。"
  • 「猫> run
  • 」(複数の主題、複数の動詞) 人間にとって、この単純なルールを理解することは、テキスト生成、翻訳、質問や回答などのタスクにとって非常に重要です。しかし、LLMがこのルールを本当に学んだかどうかをどのようにして知ることができますか?
このタスクのLLMフォーム機能ループを調査します。

ビルド機能ループ

ここで、機能ループを作成するプロセスを構築しましょう。 4つのステップで続行します

最初にモデルに文を入力します。このケーススタディでは、次の文を検討します。

    「猫が走っています。」
  1. 「猫が走っています。」
    これらの文でモデルを実行して、隠されたアクティベーションを取得します。これらのアクティベーションは、モデルが各レイヤーで文を処理する方法を表しています。
  • アクティベーションをSAEに渡して、機能を「解凍」します。
  • 計算図として機能ループを構築します:
    入力ノードは、単数文と複数の文を表します。
  1. 非表示ノードは、入力を処理するモデルレイヤーを表します。
  2. SAEから得られた機能を表します。
    • 出力ノードは最終決定を表します。この場合:実行または実行します。
    • おもちゃモデル
    • 最初におもちゃ言語モデルを構築します。これは、次のコードには意味がない場合があります。これは、2つの単純なレイヤーを備えたニューラルネットワークです。
    被験者と予測の一貫性については、モデルは次のようにする必要があります
単数形または複数の動詞で文を入力します。

隠されたレイヤーは、この情報を抽象表現に変換します。

モデルは、正しい動詞形式を出力として選択します。

  • 隠された層の内部で何が起こっているのかは明らかではありません。したがって、次のスパースオートエンコーダーを導入しました:
  • 「猫が走る」、「赤ちゃんが走る」などのさまざまな特異形式の動詞を表すように設計された文を使用して、元のモデルのsubjecterbagreementnnとsubjemverbagreementnnをトレーニングします。しかし、前と同様に、おもちゃのモデルにとっては、彼らは意味をなさないかもしれません。
  • 機能ループを視覚化します。前述のように、特徴ループは特定の機能を処理するために使用されるニューロン単位です。モデルには、機能が含まれます
言語属性を抽象表現の隠されたレイヤー
<code># ====== 定义基础模型(模拟主谓一致)======
class SubjectVerbAgreementNN(nn.Module):
   def __init__(self):
       super().__init__()
       self.hidden = nn.Linear(2, 4)  # 2 个输入 → 4 个隐藏激活
       self.output = nn.Linear(4, 2)  # 4 个隐藏 → 2 个输出 (runs/run)
       self.relu = nn.ReLU()


   def forward(self, x):
       x = self.relu(self.hidden(x))  # 计算隐藏激活
       return self.output(x)  # 预测动词</code>
ログイン後にコピー
に変換します。

sae
<code># ====== 定义稀疏自动编码器 (SAE) ======
class c(nn.Module):
   def __init__(self, input_dim, hidden_dim):
       super().__init__()
       self.encoder = nn.Linear(input_dim, hidden_dim)  # 解压缩为稀疏特征
       self.decoder = nn.Linear(hidden_dim, input_dim)  # 重构
       self.relu = nn.ReLU()


   def forward(self, x):
       encoded = self.relu(self.encoder(x))  # 稀疏激活
       decoded = self.decoder(encoded)  # 重构原始激活
       return encoded, decoded</code>
ログイン後にコピー

    フィーチャループをグラフとして視覚化していることがわかります。
  • 非表示のアクティベーションとエンコーダー出力は、両方ともグラフのノードです。
  • また、正しい動詞として出力ノードもあります。
  • 図のエッジは活性化強度によって重み付けされており、対象予定のコンセンサス決定においてどのパスが最も重要であるかを示します。たとえば、H3からF2へのパスが重要な役割を果たしていることがわかります。
gpt2-small

実際のケースでは、GPT2-Smallで同様のコードを実行します。特異な動詞を選択する決定を表す特徴的なループ図を示します。

結論Formulation of Feature Circuits with Sparse Autoencoders in LLM

機能ループは、複雑なLLMのさまざまな部分が最終出力にどのようにつながるかを理解するのに役立ちます。 SAEを使用して、対象予定の一貫したタスクのために特徴ループを形成する可能性を示します。

しかし、このアプローチには、適切な設計なしでループを実際に形成できるかどうかを常に知っているわけではないため、このアプローチには依然として人間の介入が必要であることを認めなければなりません。

参照

[1]ズーム:サーキットはじめに

画像のプレースホルダーを保存し、提供されたURLで画像がまだアクセスできると想定しています変更されていないまま。

以上がLLMにスパース自動エンコーダーを備えた特徴回路の定式化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート