Model Bahasa Besar (LLMS) telah membuat kemajuan yang luar biasa yang dapat melakukan pelbagai tugas, dari menghasilkan teks seperti manusia untuk menjawab soalan. Walau bagaimanapun, memahami bagaimana model-model ini berfungsi tetap mencabar, terutamanya kerana terdapat fenomena yang dipanggil superposisi di mana ciri-ciri bercampur dengan neuron, menjadikannya sangat sukar untuk mengekstrak perwakilan manusia yang dapat dimengerti dari struktur model asal. Inilah sebabnya kaedah seperti autoencoder jarang kelihatan dapat menghilangkan ciri -ciri untuk meningkatkan tafsiran.
Dalam catatan blog ini, kami akan menggunakan autoencoder yang jarang untuk mencari beberapa gelung ciri dalam kes yang sangat menarik mengenai konsistensi objek-objek dan memahami bagaimana komponen model menyumbang kepada tugas.
Dalam konteks rangkaian saraf, gelung ciri adalah bagaimana rangkaian belajar untuk menggabungkan ciri -ciri input untuk membentuk corak kompleks pada tahap yang lebih tinggi. Kami menggunakan metafora "gelung" untuk menggambarkan bagaimana ciri -ciri diproses dalam pelbagai lapisan rangkaian saraf, kerana cara pemprosesan ini mengingatkan kita tentang proses pemprosesan dan menggabungkan isyarat dalam litar elektronik. Gelung ciri ini secara beransur -ansur terbentuk melalui sambungan antara neuron dan lapisan, di mana setiap neuron atau lapisan bertanggungjawab untuk mengubah ciri input, dan interaksi mereka membawa kepada kombinasi ciri berguna yang berfungsi bersama -sama untuk membuat ramalan akhir.
Berikut adalah contoh gelung ciri: Dalam banyak rangkaian saraf visual, kita dapat mencari "gelung, sebagai keluarga unit yang mengesan lengkung dalam sudut yang berbeza. Pengesan lengkung terutamanya terdiri daripada pengesan lengkung awal yang kurang kompleks. dan pelaksanaan pengesan garis.
Dalam bab-bab berikut, kami akan mengkaji gelung ciri untuk tugas-tugas konsisten subjek di LLM.
overlay dan autoencoder jarang
Ini adalah apa yang dilakukan oleh autoencoder (SAE) yang jarang berlaku.
SAE membantu kami menyahsekat pengaktifan rangkaian ke dalam satu set ciri yang jarang. Ciri -ciri jarang ini sering difahami oleh manusia, yang membolehkan kita lebih memahami model. Dengan menggunakan SAE untuk pengaktifan lapisan tersembunyi model LLM, kita boleh mengasingkan ciri -ciri yang menyumbang kepada output model.
Anda boleh mencari butiran tentang bagaimana SAE berfungsi dalam catatan blog saya yang terdahulu.
Kajian Kes: Konsistensi Subjek-Predikat
Kami kini akan meneroka bagaimana bentuk LLM mempunyai gelung untuk tugas ini.
Membina Loop Ciri
kita mula -mula memasukkan ayat ke dalam model. Untuk kajian kes ini, kami menganggap ayat berikut:
Masukkan ayat dengan kata kerja tunggal atau jamak.
Lapisan tersembunyi menukar maklumat ini ke dalam perwakilan abstrak.
<code># ====== 定义基础模型(模拟主谓一致)====== class SubjectVerbAgreementNN(nn.Module): def __init__(self): super().__init__() self.hidden = nn.Linear(2, 4) # 2 个输入 → 4 个隐藏激活 self.output = nn.Linear(4, 2) # 4 个隐藏 → 2 个输出 (runs/run) self.relu = nn.ReLU() def forward(self, x): x = self.relu(self.hidden(x)) # 计算隐藏激活 return self.output(x) # 预测动词</code>
Sekarang kita memvisualisasikan gelung ciri. Seperti yang dinyatakan sebelum ini, gelung ciri adalah unit neuron yang digunakan untuk memproses ciri -ciri tertentu. Dalam model kami, ciri -ciri termasuk:
<code># ====== 定义稀疏自动编码器 (SAE) ====== class c(nn.Module): def __init__(self, input_dim, hidden_dim): super().__init__() self.encoder = nn.Linear(input_dim, hidden_dim) # 解压缩为稀疏特征 self.decoder = nn.Linear(hidden_dim, input_dim) # 重构 self.relu = nn.ReLU() def forward(self, x): encoded = self.relu(self.encoder(x)) # 稀疏激活 decoded = self.decoder(encoded) # 重构原始激活 return encoded, decoded</code>
Menukar atribut bahasa ke lapisan tersembunyi
perwakilan abstrak.
Untuk kes-kes sebenar, kami menjalankan kod serupa pada GPT2-Small. Kami menunjukkan gambarajah gelung ciri yang mewakili keputusan untuk memilih kata kerja tunggal.
Gelung ciri membantu kita memahami bagaimana bahagian -bahagian LLM yang kompleks membawa kepada output akhir. Kami menunjukkan kemungkinan membentuk gelung ciri menggunakan SAE untuk tugas-tugas yang konsisten.
Walau bagaimanapun, kita harus mengakui bahawa pendekatan ini masih memerlukan campur tangan manusia, kerana kita tidak selalu tahu sama ada gelung boleh dibentuk tanpa reka bentuk yang betul.Rujukan
Sila ambil perhatian bahawa saya telah mengekalkan ruang letak imej dan mengandaikan imej masih boleh diakses di URL yang disediakan kekal tidak berubah.
Atas ialah kandungan terperinci Perumusan litar ciri dengan autoencoder jarang di LLM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!