Rumah > Peranti teknologi > AI > teks badan

ICLR 2024 |. Model lapisan kritikal untuk serangan pintu belakang pembelajaran bersekutu

PHPz
Lepaskan: 2024-04-07 09:04:08
ke hadapan
1046 orang telah melayarinya

Pembelajaran bersekutu menggunakan pelbagai pihak untuk melatih model sementara privasi data dilindungi. Walau bagaimanapun, kerana pelayan tidak dapat memantau proses latihan yang dilakukan secara tempatan oleh peserta, peserta boleh mengusik model latihan tempatan, sekali gus menimbulkan risiko keselamatan kepada keseluruhan model pembelajaran bersekutu, seperti serangan pintu belakang.

Artikel ini memfokuskan pada cara melancarkan serangan pintu belakang ke atas pembelajaran bersekutu di bawah rangka kerja latihan yang dilindungi secara pertahanan. Makalah ini mendapati bahawa implantasi serangan pintu belakang lebih berkait rapat dengan beberapa lapisan rangkaian saraf, dan memanggil lapisan ini sebagai lapisan utama untuk serangan pintu belakang. Dalam pembelajaran bersekutu, pelanggan yang mengambil bahagian dalam latihan diedarkan pada peranti yang berbeza Mereka masing-masing melatih model mereka sendiri, dan kemudian memuat naik parameter model yang dikemas kini ke pelayan untuk pengagregatan. Memandangkan pelanggan yang mengambil bahagian dalam latihan tidak boleh dipercayai dan terdapat risiko tertentu, pelayan

Berdasarkan penemuan lapisan kunci pintu belakang, artikel ini mencadangkan untuk memintas pengesanan algoritma pertahanan dengan menyerang lapisan kunci pintu belakang , supaya sebilangan kecil peserta dapat dikawal untuk melakukan serangan pintu belakang yang cekap.

ICLR 2024 | 联邦学习后门攻击的模型关键层

Tajuk kertas: Pembelajaran Bersekutu Pintu Belakang Dengan Meracuni Lapisan Kritikal Pintu Belakang

Pautan kertas: https://openreview.net/pdf?id=AJBGSVSTT2

Pautan kod: https://github.com/zhmzm.com/zhmzm.com Poisoning_Backdoor-critical_Layers_Attack

Kaedah

ICLR 2024 | 联邦学习后门攻击的模型关键层

Artikel ini mencadangkan kaedah penggantian lapisan untuk mengenal pasti lapisan kritikal pintu belakang. Kaedah khusus adalah seperti berikut:

  • Langkah pertama ialah melatih model pada set data yang bersih sehingga penumpuan, dan menyimpan parameter model sebagai model jinakICLR 2024 | 联邦学习后门攻击的模型关键层. Kemudian salin model jinak dan latihnya pada set data yang mengandungi pintu belakang Selepas penumpuan, simpan parameter model dan rekodkannya sebagai model berniat jahatICLR 2024 | 联邦学习后门攻击的模型关键层.

  • Langkah kedua ialah menggantikan lapisan parameter dalam model jinak ke dalam model berniat jahat yang mengandungi pintu belakang, dan mengira kadar kejayaan serangan pintu belakang model yang dihasilkanICLR 2024 | 联邦学习后门攻击的模型关键层. Perbezaan antara kadar kejayaan serangan pintu belakang yang diperoleh dan kadar kejayaan serangan pintu belakang model berniat jahat BSR ialah ΔBSR, yang boleh digunakan untuk mendapatkan kesan lapisan ini pada serangan pintu belakang. Menggunakan kaedah yang sama untuk setiap lapisan dalam rangkaian saraf, anda boleh mendapatkan senarai kesan semua lapisan pada serangan pintu belakang.

  • Langkah ketiga ialah menyusun semua lapisan mengikut kesannya terhadap serangan pintu belakang. Ambil lapisan dengan impak paling hebat daripada senarai dan tambahkannya pada set lapisan kritikal serangan pintu belakang ICLR 2024 | 联邦学习后门攻击的模型关键层, dan benamkan parameter lapisan kritikal serangan pintu belakang (lapisan dalam set ICLR 2024 |. Model lapisan kritikal untuk serangan pintu belakang pembelajaran bersekutu) daripada model berniat jahat ke dalam model jinak. Kira kadar kejayaan serangan pintu belakang model yang diperolehICLR 2024 | 联邦学习后门攻击的模型关键层. Jika kadar kejayaan serangan pintu belakang lebih besar daripada ambang ditetapkan τ didarab dengan kadar kejayaan serangan pintu belakang model berniat jahat ICLR 2024 | 联邦学习后门攻击的模型关键层, algoritma dihentikan. Jika tidak berpuas hati, teruskan menambah lapisan terbesar antara lapisan yang tinggal dalam senarai ke lapisan kunci untuk serangan pintu belakangICLR 2024 |. Model lapisan kritikal untuk serangan pintu belakang pembelajaran bersekutu sehingga syarat dipenuhi.

Setelah mendapatkan koleksi lapisan utama serangan pintu belakang, artikel ini mencadangkan kaedah untuk memintas kaedah pengesanan pertahanan dengan menyerang lapisan utama pintu belakang. Selain itu, kertas kerja ini memperkenalkan pengagregatan simulasi dan pusat model jinak untuk mengurangkan lagi jarak dari model jinak yang lain.

Hasil percubaan

Artikel ini mengesahkan keberkesanan serangan lapisan kunci pintu belakang pada pelbagai kaedah pertahanan pada set data CIFAR-10 dan MNIST. Percubaan akan menggunakan kadar kejayaan serangan pintu belakang BSR dan kadar penerimaan model berniat jahat MAR (kadar penerimaan model jinak BAR) sebagai penunjuk untuk mengukur keberkesanan serangan.

Pertama sekali, serangan berasaskan lapisan LP Attack boleh membenarkan pelanggan berniat jahat mendapatkan kadar pemilihan yang tinggi. Seperti yang ditunjukkan dalam jadual di bawah, LP Attack mencapai kadar penerimaan sebanyak 90% pada set data CIFAR-10, yang jauh lebih tinggi daripada 34% pengguna jinak.

ICLR 2024 | 联邦学习后门攻击的模型关键层

Kemudian, LP Attack boleh mencapai kadar kejayaan serangan pintu belakang yang tinggi, walaupun dalam tetapan dengan hanya 10% pelanggan berniat jahat. Seperti yang ditunjukkan dalam jadual di bawah, LP Attack boleh mencapai kadar kejayaan serangan pintu belakang yang tinggi BSR di bawah perlindungan set data yang berbeza dan kaedah pertahanan yang berbeza.

ICLR 2024 | 联邦学习后门攻击的模型关键层

Dalam eksperimen ablasi, artikel ini masing-masing meracuni lapisan kunci pintu belakang dan lapisan kunci bukan pintu belakang dan mengukur kadar kejayaan serangan pintu belakang bagi kedua-dua eksperimen. Seperti yang ditunjukkan dalam rajah di bawah, apabila menyerang bilangan lapisan yang sama, kadar kejayaan meracuni lapisan kunci bukan pintu belakang adalah jauh lebih rendah daripada meracuni lapisan kunci pintu belakang Ini menunjukkan bahawa algoritma dalam artikel ini boleh memilih kunci serangan pintu belakang yang berkesan lapisan.

ICLR 2024 | 联邦学习后门攻击的模型关键层

Selain itu, kami menjalankan eksperimen ablasi pada modul pengagregatan model Model Averaging dan modul kawalan adaptif Kawalan Adaptif. Seperti yang ditunjukkan dalam jadual di bawah, kedua-dua modul meningkatkan kadar pemilihan dan kadar kejayaan serangan pintu belakang, membuktikan keberkesanan kedua-dua modul ini.

ICLR 2024 | 联邦学习后门攻击的模型关键层

Ringkasan

Artikel ini mendapati bahawa serangan pintu belakang berkait rapat dengan beberapa lapisan, dan mencadangkan algoritma untuk mencari lapisan utama serangan pintu belakang. Kertas kerja ini mencadangkan serangan dari segi lapisan pada algoritma perlindungan dalam pembelajaran bersekutu dengan menggunakan pintu belakang untuk menyerang lapisan utama. Serangan yang dicadangkan mendedahkan kelemahan tiga jenis kaedah pertahanan semasa, menunjukkan bahawa algoritma pertahanan yang lebih canggih akan diperlukan untuk melindungi keselamatan pembelajaran bersekutu pada masa hadapan.

Pengenalan kepada pengarang

Zhuang Haomin, berkelulusan dari Universiti Teknologi China Selatan dengan ijazah sarjana muda Beliau bekerja sebagai pembantu penyelidik di Makmal IntelliSys Universiti Negeri Louisiana dan sedang belajar untuk PhD di Universiti of. Notre Dame. Arah penyelidikan utama ialah serangan pintu belakang dan serangan sampel musuh.

Atas ialah kandungan terperinci ICLR 2024 |. Model lapisan kritikal untuk serangan pintu belakang pembelajaran bersekutu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan