LLMにスパース自動エンコーダーを備えた特徴回路の定式化-AI-php.cn

LLMにスパース自動エンコーダーを備えた特徴回路の定式化

王林

リリース： 2025-02-26 01:46:08

オリジナル

616 人が閲覧しました

大規模な言語モデル（LLMS）は、人間のようなテキストの生成から質問への回答まで、さまざまなタスクを実行できる顕著な進歩を遂げています。ただし、これらのモデルがどのように機能するかを理解することは、特にニューロンに特徴が混合されている重層と呼ばれる現象があるため、元のモデル構造から人間の理解可能な表現を抽出することが非常に困難であるためです。これが、スパースの自動エンコーダーのような方法が、解釈可能性を改善するために機能を解くことができるように見える理由です。

このブログ投稿では、スパース自動エンコーダーを使用して、オブジェクトと動詞の一貫性の特に興味深いケースでいくつかの機能ループを探し、モデルコンポーネントがタスクにどのように貢献するかを理解します。

重要な概念

機能loop

ニューラルネットワークのコンテキストでは、機能ループは、ネットワークが入力機能を組み合わせて複雑なパターンをより高いレベルで形成する方法を学習する方法です。「ループ」の比phorを使用して、この処理方法が電子回路の信号を処理して組み合わせるプロセスを思い出させるため、「ループ」のさまざまな層で機能がどのように処理されるかを説明します。

これらの特徴ループは、ニューロンと層の間の接続を通じて徐々に形成されます。そこでは、各ニューロンまたは層が入力機能の変換に責任があり、それらの相互作用は最終予測を行うために協力して有用な機能の組み合わせにつながります。

以下は特徴ループの例です。多くの視覚ニューラルネットワークでは、「ループ」を見つけることができます。異なる角度で曲線を検出するユニットのファミリーとして。曲線検出器は、主に初期の複雑でない曲線検出器で構成されています。ライン検出器の実装。これらの曲線検出器は、次のレイヤーで使用され、3Dジオメトリと複雑な形状検出器が作成されます[1]。

次の章では、LLMの主題予定の一貫したタスクの機能ループを調べます。

オーバーレイとスパースオートエンコーダー

機械学習のコンテキストでは、モデルのニューロンが単一の異なる機能ではなく、複数の重複する機能を表しているという現象を参照して、重ね合わせを観察することがあります。たとえば、InceptionV1には、猫の顔、車の前面、猫の脚に反応するニューロンが含まれています。

これは、スパースオートエンコーダー（SAE）が行うことです。

SAEは、ネットワークのアクティベーションをまばらな機能にブロック解除するのに役立ちます。これらのまばらな機能は、人間がしばしば理解できるため、モデルをよりよく理解することができます。 SAEをLLMモデルの隠されたレイヤーアクティベーションに適用することにより、モデルの出力に寄与する機能を分離できます。

以前のブログ投稿でSAEの仕組みの詳細を見つけることができます。

ケーススタディ：件名の一貫性

件名の整合性

対象と予定の一貫性は、英語の基本的な文法ルールです。文の主題と述語動詞は、量、すなわち特異または複数の一貫性がなければなりません。たとえば、

"cat はを実行します。"
「猫> run
」（複数の主題、複数の動詞）人間にとって、この単純なルールを理解することは、テキスト生成、翻訳、質問や回答などのタスクにとって非常に重要です。しかし、LLMがこのルールを本当に学んだかどうかをどのようにして知ることができますか？

このタスクのLLMフォーム機能ループを調査します。

ビルド機能ループ

ここで、機能ループを作成するプロセスを構築しましょう。 4つのステップで続行します

最初にモデルに文を入力します。このケーススタディでは、次の文を検討します。

「猫が走っています。」

- おもちゃモデル
- 最初におもちゃ言語モデルを構築します。これは、次のコードには意味がない場合があります。これは、2つの単純なレイヤーを備えたニューラルネットワークです。
被験者と予測の一貫性については、モデルは次のようにする必要があります

単数形または複数の動詞で文を入力します。

隠されたレイヤーは、この情報を抽象表現に変換します。

モデルは、正しい動詞形式を出力として選択します。

隠された層の内部で何が起こっているのかは明らかではありません。したがって、次のスパースオートエンコーダーを導入しました：
「猫が走る」、「赤ちゃんが走る」などのさまざまな特異形式の動詞を表すように設計された文を使用して、元のモデルのsubjecterbagreementnnとsubjemverbagreementnnをトレーニングします。しかし、前と同様に、おもちゃのモデルにとっては、彼らは意味をなさないかもしれません。
機能ループを視覚化します。前述のように、特徴ループは特定の機能を処理するために使用されるニューロン単位です。モデルには、機能が含まれます

言語属性を抽象表現の隠されたレイヤー

<code># ====== 定义基础模型（模拟主谓一致）======
class SubjectVerbAgreementNN(nn.Module):
   def __init__(self):
       super().__init__()
       self.hidden = nn.Linear(2, 4)  # 2 个输入 → 4 个隐藏激活
       self.output = nn.Linear(4, 2)  # 4 个隐藏 → 2 个输出 (runs/run)
       self.relu = nn.ReLU()


   def forward(self, x):
       x = self.relu(self.hidden(x))  # 计算隐藏激活
       return self.output(x)  # 预测动词</code>

ログイン後にコピー

に変換します。

sae

<code># ====== 定义稀疏自动编码器 (SAE) ======
class c(nn.Module):
   def __init__(self, input_dim, hidden_dim):
       super().__init__()
       self.encoder = nn.Linear(input_dim, hidden_dim)  # 解压缩为稀疏特征
       self.decoder = nn.Linear(hidden_dim, input_dim)  # 重构
       self.relu = nn.ReLU()


   def forward(self, x):
       encoded = self.relu(self.encoder(x))  # 稀疏激活
       decoded = self.decoder(encoded)  # 重构原始激活
       return encoded, decoded</code>

ログイン後にコピー

フィーチャループをグラフとして視覚化していることがわかります。