大規模な言語モデル(LLMS)は、人間のようなテキストの生成から質問への回答まで、さまざまなタスクを実行できる顕著な進歩を遂げています。ただし、これらのモデルがどのように機能するかを理解することは、特にニューロンに特徴が混合されている重層と呼ばれる現象があるため、元のモデル構造から人間の理解可能な表現を抽出することが非常に困難であるためです。これが、スパースの自動エンコーダーのような方法が、解釈可能性を改善するために機能を解くことができるように見える理由です。
このブログ投稿では、スパース自動エンコーダーを使用して、オブジェクトと動詞の一貫性の特に興味深いケースでいくつかの機能ループを探し、モデルコンポーネントがタスクにどのように貢献するかを理解します。重要な概念
これらの特徴ループは、ニューロンと層の間の接続を通じて徐々に形成されます。そこでは、各ニューロンまたは層が入力機能の変換に責任があり、それらの相互作用は最終予測を行うために協力して有用な機能の組み合わせにつながります。
以下は特徴ループの例です。多くの視覚ニューラルネットワークでは、「ループ」を見つけることができます。異なる角度で曲線を検出するユニットのファミリーとして。曲線検出器は、主に初期の複雑でない曲線検出器で構成されています。ライン検出器の実装。これらの曲線検出器は、次のレイヤーで使用され、3Dジオメトリと複雑な形状検出器が作成されます[1]。次の章では、LLMの主題予定の一貫したタスクの機能ループを調べます。
オーバーレイとスパースオートエンコーダー
機械学習のコンテキストでは、モデルのニューロンが単一の異なる機能ではなく、複数の重複する機能を表しているという現象を参照して、重ね合わせを観察することがあります。たとえば、InceptionV1には、猫の顔、車の前面、猫の脚に反応するニューロンが含まれています。
SAEは、ネットワークのアクティベーションをまばらな機能にブロック解除するのに役立ちます。これらのまばらな機能は、人間がしばしば理解できるため、モデルをよりよく理解することができます。 SAEをLLMモデルの隠されたレイヤーアクティベーションに適用することにより、モデルの出力に寄与する機能を分離できます。
以前のブログ投稿でSAEの仕組みの詳細を見つけることができます。
ケーススタディ:件名の一貫性
件名の整合性
ビルド機能ループ
ここで、機能ループを作成するプロセスを構築しましょう。 4つのステップで続行します
モデルは、正しい動詞形式を出力として選択します。
<code># ====== 定义基础模型(模拟主谓一致)====== class SubjectVerbAgreementNN(nn.Module): def __init__(self): super().__init__() self.hidden = nn.Linear(2, 4) # 2 个输入 → 4 个隐藏激活 self.output = nn.Linear(4, 2) # 4 个隐藏 → 2 个输出 (runs/run) self.relu = nn.ReLU() def forward(self, x): x = self.relu(self.hidden(x)) # 计算隐藏激活 return self.output(x) # 预测动词</code>
sae
<code># ====== 定义稀疏自动编码器 (SAE) ====== class c(nn.Module): def __init__(self, input_dim, hidden_dim): super().__init__() self.encoder = nn.Linear(input_dim, hidden_dim) # 解压缩为稀疏特征 self.decoder = nn.Linear(hidden_dim, input_dim) # 重构 self.relu = nn.ReLU() def forward(self, x): encoded = self.relu(self.encoder(x)) # 稀疏激活 decoded = self.decoder(encoded) # 重构原始激活 return encoded, decoded</code>
しかし、このアプローチには、適切な設計なしでループを実際に形成できるかどうかを常に知っているわけではないため、このアプローチには依然として人間の介入が必要であることを認めなければなりません。
参照
画像のプレースホルダーを保存し、提供されたURLで画像がまだアクセスできると想定しています変更されていないまま。
以上がLLMにスパース自動エンコーダーを備えた特徴回路の定式化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。