Pembelajaran bersekutu menggunakan pelbagai pihak untuk melatih model sementara privasi data dilindungi. Walau bagaimanapun, kerana pelayan tidak dapat memantau proses latihan yang dilakukan secara tempatan oleh peserta, peserta boleh mengusik model latihan tempatan, sekali gus menimbulkan risiko keselamatan kepada keseluruhan model pembelajaran bersekutu, seperti serangan pintu belakang.
Artikel ini memfokuskan pada cara melancarkan serangan pintu belakang ke atas pembelajaran bersekutu di bawah rangka kerja latihan yang dilindungi secara pertahanan. Makalah ini mendapati bahawa implantasi serangan pintu belakang lebih berkait rapat dengan beberapa lapisan rangkaian saraf, dan memanggil lapisan ini sebagai lapisan utama untuk serangan pintu belakang. Dalam pembelajaran bersekutu, pelanggan yang mengambil bahagian dalam latihan diedarkan pada peranti yang berbeza Mereka masing-masing melatih model mereka sendiri, dan kemudian memuat naik parameter model yang dikemas kini ke pelayan untuk pengagregatan. Memandangkan pelanggan yang mengambil bahagian dalam latihan tidak boleh dipercayai dan terdapat risiko tertentu, pelayan
Berdasarkan penemuan lapisan kunci pintu belakang, artikel ini mencadangkan untuk memintas pengesanan algoritma pertahanan dengan menyerang lapisan kunci pintu belakang , supaya sebilangan kecil peserta dapat dikawal untuk melakukan serangan pintu belakang yang cekap.
Tajuk kertas: Pembelajaran Bersekutu Pintu Belakang Dengan Meracuni Lapisan Kritikal Pintu Belakang
Pautan kertas: https://openreview.net/pdf?id=AJBGSVSTT2
Pautan kod: https://github.com/zhmzm.com/zhmzm.com Poisoning_Backdoor-critical_Layers_Attack
Kaedah
Artikel ini mencadangkan kaedah penggantian lapisan untuk mengenal pasti lapisan kritikal pintu belakang. Kaedah khusus adalah seperti berikut:
Langkah pertama ialah melatih model pada set data yang bersih sehingga penumpuan, dan menyimpan parameter model sebagai model jinak. Kemudian salin model jinak dan latihnya pada set data yang mengandungi pintu belakang Selepas penumpuan, simpan parameter model dan rekodkannya sebagai model berniat jahat.
Langkah kedua ialah menggantikan lapisan parameter dalam model jinak ke dalam model berniat jahat yang mengandungi pintu belakang, dan mengira kadar kejayaan serangan pintu belakang model yang dihasilkan. Perbezaan antara kadar kejayaan serangan pintu belakang yang diperoleh dan kadar kejayaan serangan pintu belakang model berniat jahat BSR ialah ΔBSR, yang boleh digunakan untuk mendapatkan kesan lapisan ini pada serangan pintu belakang. Menggunakan kaedah yang sama untuk setiap lapisan dalam rangkaian saraf, anda boleh mendapatkan senarai kesan semua lapisan pada serangan pintu belakang.
Langkah ketiga ialah menyusun semua lapisan mengikut kesannya terhadap serangan pintu belakang. Ambil lapisan dengan impak paling hebat daripada senarai dan tambahkannya pada set lapisan kritikal serangan pintu belakang , dan benamkan parameter lapisan kritikal serangan pintu belakang (lapisan dalam set ) daripada model berniat jahat ke dalam model jinak. Kira kadar kejayaan serangan pintu belakang model yang diperoleh. Jika kadar kejayaan serangan pintu belakang lebih besar daripada ambang ditetapkan τ didarab dengan kadar kejayaan serangan pintu belakang model berniat jahat , algoritma dihentikan. Jika tidak berpuas hati, teruskan menambah lapisan terbesar antara lapisan yang tinggal dalam senarai ke lapisan kunci untuk serangan pintu belakang sehingga syarat dipenuhi.
Setelah mendapatkan koleksi lapisan utama serangan pintu belakang, artikel ini mencadangkan kaedah untuk memintas kaedah pengesanan pertahanan dengan menyerang lapisan utama pintu belakang. Selain itu, kertas kerja ini memperkenalkan pengagregatan simulasi dan pusat model jinak untuk mengurangkan lagi jarak dari model jinak yang lain.
Hasil percubaan
Artikel ini mengesahkan keberkesanan serangan lapisan kunci pintu belakang pada pelbagai kaedah pertahanan pada set data CIFAR-10 dan MNIST. Percubaan akan menggunakan kadar kejayaan serangan pintu belakang BSR dan kadar penerimaan model berniat jahat MAR (kadar penerimaan model jinak BAR) sebagai penunjuk untuk mengukur keberkesanan serangan.
Pertama sekali, serangan berasaskan lapisan LP Attack boleh membenarkan pelanggan berniat jahat mendapatkan kadar pemilihan yang tinggi. Seperti yang ditunjukkan dalam jadual di bawah, LP Attack mencapai kadar penerimaan sebanyak 90% pada set data CIFAR-10, yang jauh lebih tinggi daripada 34% pengguna jinak.
Kemudian, LP Attack boleh mencapai kadar kejayaan serangan pintu belakang yang tinggi, walaupun dalam tetapan dengan hanya 10% pelanggan berniat jahat. Seperti yang ditunjukkan dalam jadual di bawah, LP Attack boleh mencapai kadar kejayaan serangan pintu belakang yang tinggi BSR di bawah perlindungan set data yang berbeza dan kaedah pertahanan yang berbeza.
Dalam eksperimen ablasi, artikel ini masing-masing meracuni lapisan kunci pintu belakang dan lapisan kunci bukan pintu belakang dan mengukur kadar kejayaan serangan pintu belakang bagi kedua-dua eksperimen. Seperti yang ditunjukkan dalam rajah di bawah, apabila menyerang bilangan lapisan yang sama, kadar kejayaan meracuni lapisan kunci bukan pintu belakang adalah jauh lebih rendah daripada meracuni lapisan kunci pintu belakang Ini menunjukkan bahawa algoritma dalam artikel ini boleh memilih kunci serangan pintu belakang yang berkesan lapisan.
Selain itu, kami menjalankan eksperimen ablasi pada modul pengagregatan model Model Averaging dan modul kawalan adaptif Kawalan Adaptif. Seperti yang ditunjukkan dalam jadual di bawah, kedua-dua modul meningkatkan kadar pemilihan dan kadar kejayaan serangan pintu belakang, membuktikan keberkesanan kedua-dua modul ini.
Ringkasan
Artikel ini mendapati bahawa serangan pintu belakang berkait rapat dengan beberapa lapisan, dan mencadangkan algoritma untuk mencari lapisan utama serangan pintu belakang. Kertas kerja ini mencadangkan serangan dari segi lapisan pada algoritma perlindungan dalam pembelajaran bersekutu dengan menggunakan pintu belakang untuk menyerang lapisan utama. Serangan yang dicadangkan mendedahkan kelemahan tiga jenis kaedah pertahanan semasa, menunjukkan bahawa algoritma pertahanan yang lebih canggih akan diperlukan untuk melindungi keselamatan pembelajaran bersekutu pada masa hadapan.
Pengenalan kepada pengarang
Zhuang Haomin, berkelulusan dari Universiti Teknologi China Selatan dengan ijazah sarjana muda Beliau bekerja sebagai pembantu penyelidik di Makmal IntelliSys Universiti Negeri Louisiana dan sedang belajar untuk PhD di Universiti of. Notre Dame. Arah penyelidikan utama ialah serangan pintu belakang dan serangan sampel musuh.
Atas ialah kandungan terperinci ICLR 2024 |. Model lapisan kritikal untuk serangan pintu belakang pembelajaran bersekutu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!