Aset data telah menjadi alat utama dalam reka bentuk produk dan perkhidmatan, tetapi pengumpulan data pengguna terpusat meletakkan privasi peribadi pada risiko, yang seterusnya mendedahkan organisasi kepada risiko undang-undang. Bermula pada tahun 2016, orang ramai mula meneroka cara menggunakan pemilikan dan asal data di bawah perlindungan privasi pengguna, yang menjadikan pembelajaran bersekutu dan analisis bersekutu sebagai tempat yang membimbangkan. Apabila skop penyelidikan terus berkembang, pembelajaran bersekutu telah mula digunakan untuk bidang yang lebih luas seperti Internet Perkara.
Jadi, apakah pembelajaran bersekutu?
Pembelajaran bersekutu ialah persediaan pembelajaran mesin di mana pelbagai entiti bekerjasama untuk menyelesaikan masalah pembelajaran mesin di bawah penyelarasan pelayan pusat atau penyedia perkhidmatan. Data mentah disimpan secara setempat untuk setiap pelanggan dan tidak ditukar atau dipindahkan sebaliknya, kemas kini data terfokus digunakan untuk pengagregatan segera untuk mencapai matlamat pembelajaran.
Begitu juga, menjana cerapan analitik daripada gabungan maklumat set data yang tersebar dipanggil analisis bersekutu.
Artikel ini menyediakan pengenalan ringkas kepada konsep utama dalam pembelajaran dan analitik bersekutu, memfokuskan pada cara mengintegrasikan teknologi privasi dengan sistem dunia sebenar, dan cara teknologi ini boleh digunakan untuk mencapai faedah sosial melalui statistik agregat dalam baharu kawasan , dan meminimumkan risiko kepada individu dan penjaga data.
Privasi pada asasnya ialah konsep pelbagai aspek dengan tiga komponen utama: ketelusan dan keizinan pengguna; dan tanpa nama data.
Ketelusan dan persetujuan pengguna ialah asas privasi: ia adalah cara pengguna memahami dan mengiktiraf penggunaan data mereka. Teknologi memelihara privasi tidak boleh menggantikan ketelusan dan persetujuan pengguna, tetapi ia memudahkan untuk membuat kesimpulan jenis data yang boleh digunakan atau dikecualikan oleh reka bentuk, menjadikan pernyataan privasi lebih mudah difahami, disahkan dan dikuatkuasakan. Matlamat utama penggunaan data adalah untuk menjana model pembelajaran bersekutu dan mengira metrik atau statistik agregat lain data pengguna (seperti analisis bersekutu).
Pengurangan data yang digunakan pada pengagregatan termasuk mengumpul hanya data yang diperlukan untuk pengiraan tertentu, mengehadkan akses kepada data tersebut pada semua peringkat, memproses data peribadi seawal mungkin dan mengekalkan data pada tahap minimum. Iaitu, pengecilan data bermakna mengehadkan akses kepada semua data kepada kumpulan terkecil yang mungkin, biasanya melalui mekanisme keselamatan seperti penyulitan, kawalan akses, dan pengiraan berbilang pihak yang selamat dan persekitaran pelaksanaan yang dipercayai.
Penanomaan data bermakna bahawa output akhir pengiraan tidak mendedahkan apa-apa yang unik kepada individu tersebut. Apabila digunakan untuk pengagregatan tanpa nama, data yang diberikan oleh mana-mana pengguna individu untuk pengiraan mempunyai sedikit kesan pada output agregat akhir. Sebagai contoh, apabila statistik agregat dikeluarkan kepada umum, statistik agregat, termasuk parameter model, tidak sepatutnya berbeza dengan ketara bergantung pada sama ada data pengguna tertentu dimasukkan dalam agregat.
Iaitu, pengecilan data melibatkan pelaksanaan pengiraan dan pemprosesan data, manakala anonimasi data melibatkan perkara yang dikira dan diterbitkan.
Pembelajaran bersekutu secara berstruktur merangkumi pengecilan data. Adalah penting untuk ambil perhatian bahawa pengumpulan dan pengagregatan data tidak dapat dipisahkan dalam pendekatan bersekutu, data pelanggan diubah dan dikumpulkan untuk pengagregatan segera, dan penganalisis tidak mempunyai akses kepada setiap mesej pelanggan. Pembelajaran bersekutu dan analisis bersekutu ialah contoh corak pengkomputeran bersekutu umum yang merangkumi amalan pengecilan data. Pendekatan tradisional ialah pemprosesan berpusat, yang menggantikan prapemprosesan dan pengagregatan pada peranti dengan pengumpulan data Semasa pemprosesan data log, pengecilan data berlaku pada pelayan.
Matlamat pembelajaran bersekutu dan analisis bersekutu adalah konsisten dengan matlamat pengagregatan tanpa nama. Dengan pembelajaran mesin, matlamatnya adalah untuk melatih model yang meramalkan semua pengguna dengan tepat tanpa terlebih pasang. Begitu juga, untuk pertanyaan statistik, matlamatnya adalah untuk menganggarkan statistik, yang tidak sepatutnya dipengaruhi oleh mana-mana data pengguna.
Pembelajaran bersekutu digabungkan dengan teknik memelihara privasi seperti privasi berbeza boleh memastikan pengagregatan yang diterbitkan mempunyai kerahasiaan yang mencukupi. Dalam kebanyakan kes, kerahasiaan data mungkin tidak terpakai dan akses terus oleh pembekal perkhidmatan kepada data sensitif individu tidak dapat dielakkan, tetapi dalam interaksi ini, pembekal perkhidmatan hanya perlu menggunakan data untuk tujuan yang dimaksudkan.
Ciri-ciri pembelajaran bersekutu adalah mengekalkan penyahpusatan data asal dan pembelajaran melalui pengagregatan. Data yang dijana secara tempatan adalah heterogen dalam pengedaran dan kuantiti, yang membezakan pembelajaran bersekutu daripada persekitaran pembelajaran teragih berasaskan pusat data tradisional Data yang terakhir boleh diedarkan dan dibersihkan secara sewenang-wenangnya, dan mana-mana nod dalam pengiraan boleh Sebarang data boleh diakses. Dalam amalan, peranan pusat kawalan adalah penting dan sering diperlukan, contohnya, untuk peranti mudah alih yang kekurangan alamat IP tetap dan memerlukan pelayan pusat untuk berkomunikasi.
Dua senario bersekutu telah mendapat perhatian khusus:
Pembelajaran bersekutu merentas peranti, di mana pelanggan adalah sejumlah besar peranti mudah alih atau peranti IoT .
Untuk pembelajaran bersekutu merentas organisasi, pelanggan biasanya merupakan organisasi yang lebih kecil, institusi atau pulau data lain.
Jadual 1, diadaptasi daripada Kairouz et al., 10 meringkaskan ciri utama tetapan FL dan menyerlahkan beberapa perbezaan utama antara tetapan merentas peranti dan silang silo, serta perbandingan dengan pembelajaran teragih di pusat data.
Pembelajaran bersekutu merentas peranti telah digunakan pada telefon Android dan iOS masing-masing untuk banyak aplikasi seperti ramalan papan kekunci. Pembelajaran bersekutu merentas organisasi digunakan dalam masalah seperti penyelidikan kesihatan. Satu lagi aplikasi yang semakin meningkat ialah kewangan, dengan pelaburan daripada WeBank, Credit Suisse, Intel dan lain-lain.
Ciri-ciri senario pembelajaran bersekutu biasa dibandingkan dalam jadual berikut:
Projek |
Pembelajaran teragih pusat data |
Pembelajaran bersekutu merentas organisasi |
Pembelajaran bersekutu merentas peranti |
Konfigurasi |
Melatih model pada set data rata yang besar, pelanggan ialah Nod dalam kluster atau pusat data |
melatih model merentas pulau data dan pelanggan ialah pusat data dalam organisasi yang berbeza atau rantau yang berbeza |
Pelanggan ialah seorang peranti mudah alih besar-besaran atau peranti IoT |
Pengedaran data |
Data disimpan secara berpusat dan boleh digunakan di seluruh pembersihan Pelanggan dan mengimbangi. Mana-mana pelanggan boleh mengakses mana-mana bahagian set data. |
Data dijana dan disimpan secara setempat, mengekalkan desentralisasi. Setiap pelanggan tidak boleh mengakses data pelanggan lain dan data tersebut tidak bebas atau diedarkan secara homogen |
Data dijana dan disimpan secara setempat, mengekalkan desentralisasi. Setiap pelanggan tidak boleh mengakses data pelanggan lain dan data tersebut tidak bebas atau diedarkan secara homogen |
Orkestrasi |
Orkestrasi berpusat |
Perkhidmatan orkestrasi berpusat tetapi data asal ialah tidak kelihatan |
Perkhidmatan orkestrasi berpusat tetapi data mentah tidak kelihatan |
Skala pengedaran |
1~1000 |
2~100 |
Beribu-ribu dan ratusan juta |
Atribut pelanggan |
Pelanggan adalah sahih dan boleh dipercayai, sentiasa mengambil bahagian dalam pengiraan dan mengekalkan keadaan semasa pengiraan. |
Pelanggan adalah sahih dan boleh dipercayai, sentiasa mengambil bahagian dalam pengiraan dan mengekalkan keadaan semasa pengiraan. |
Tidak tersedia untuk semua pelanggan, biasanya diambil secara rawak daripada peranti yang tersedia. Sebilangan besar pelanggan mengambil bahagian hanya sekali dalam pengiraan. |
Pembelajaran mesin, terutamanya pembelajaran mendalam, secara amnya memerlukan data dan intensif secara pengiraan, jadi kemungkinan untuk melatih model kualiti bersama adalah jauh daripada mencapai kesimpulan yang telah ditetapkan. Algoritma pembelajaran bersekutu adalah berdasarkan algoritma turunan kecerunan stokastik klasik, yang digunakan secara meluas untuk melatih model pembelajaran mesin dalam persekitaran tradisional. Model ialah fungsi daripada sampel latihan kepada ramalan, diparameterkan oleh vektor berat model, dan fungsi kehilangan yang mengukur ralat antara ramalan dan output sebenar. Dengan persampelan kumpulan sampel latihan (biasanya daripada puluhan hingga ribuan), mengira kecerunan purata fungsi kehilangan berbanding dengan berat model, dan kemudian melaraskan berat model dalam arah yang bertentangan dengan kecerunan. Dengan melaraskan saiz langkah setiap lelaran dengan sewajarnya, penumpuan yang memuaskan boleh diperolehi walaupun untuk fungsi bukan cembung.
Pelanjutan kepada pembelajaran bersekutu adalah untuk menyiarkan pemberat model semasa kepada sekumpulan pelanggan rawak, biarkan mereka masing-masing mengira kecerunan kehilangan pada data tempatan, purata kecerunan ini pada pelanggan pada pelayan, dan kemudian mengemas kini model Global berat. Walau bagaimanapun, lebih banyak lelaran biasanya diperlukan untuk menghasilkan model yang sangat tepat. Pengiraan kasar menunjukkan bahawa dalam persekitaran pembelajaran bersekutu, lelaran boleh mengambil masa beberapa minit, yang bermaksud bahawa latihan bersekutu boleh mengambil masa dari sebulan hingga setahun, di luar skop praktikal.
Idea utama pembelajaran bersekutu ialah intuitif, mengurangkan kos komunikasi dan permulaan dengan melakukan berbilang langkah penurunan kecerunan stokastik secara setempat pada setiap peranti, yang kemudiannya mengurangkan purata bilangan kemas kini model. Jika purata model selepas setiap langkah tempatan, ia mungkin terlalu perlahan jika purata model terlalu sedikit, ia mungkin menyimpang, dan purata boleh menghasilkan model yang lebih teruk.
Latihan model boleh dikurangkan kepada aplikasi pengagregatan bersekutu, iaitu purata kecerunan model atau kemas kini.
Memiliki algoritma persekutuan yang berdaya maju adalah titik permulaan yang perlu, walau bagaimanapun, jika pembelajaran gabungan merentas peranti adalah berkesan untuk memacu pasukan produk kaedah, anda memerlukan sesuatu yang lebih. Untuk pembelajaran bersekutu merentas peranti, aliran kerja biasa adalah seperti berikut:
(1) Kenal pasti masalah
Biasanya ini bermakna memerlukan saiz sederhana (1-50MB ) model pada peranti; data latihan berpotensi yang tersedia pada peranti adalah lebih kaya atau lebih mewakili data yang tersedia di pusat data terdapat privasi atau sebab lain untuk tidak memusatkan isyarat maklum balas yang diperlukan untuk melatih model; tersedia pada peranti dapatkan.
(2) Pembangunan dan penilaian model
Seperti mana-mana tugas pembelajaran mesin, pilih struktur model dan hiperparameter yang betul (kadar pembelajaran, saiz kelompok, penyelarasan) Penting untuk kejayaan pembelajaran mesin. Dalam pembelajaran bersekutu, cabaran mungkin lebih besar, yang memperkenalkan banyak hiperparameter baharu, seperti bilangan pelanggan yang mengambil bahagian dalam setiap pusingan, berapa banyak langkah tempatan yang perlu dilakukan, dsb. Titik permulaan yang biasa ialah simulasi menggunakan pembelajaran bersekutu berdasarkan data ejen yang tersedia di pusat data, dengan pemilihan dan penalaan model kasar. Penalaan dan penilaian akhir mesti dilakukan menggunakan latihan bersekutu pada peralatan sebenar. Penilaian juga mesti dilakukan secara bersekutu: secara bebas daripada proses latihan, model global calon dihantar ke peranti supaya metrik ketepatan boleh dikira pada set data tempatan peranti tersebut dan diagregatkan oleh pelayan, cth prestasi dan histogram setiap pelanggan adalah penting. Tuntutan ini mewujudkan dua keperluan infrastruktur utama: (1) menyediakan infrastruktur simulasi pembelajaran gabungan berprestasi tinggi yang membolehkan peralihan yang lancar untuk berjalan pada peranti sebenar; (2) infrastruktur merentas peranti yang memudahkan untuk mengurus pelbagai Latihan dan penilaian serentak tugasan yang dilaksanakan.
(3) Penggunaan
Setelah model calon berkualiti tinggi dipilih dalam langkah 2, penggunaan model secara amnya mengikut prosedur yang sama seperti model terlatih pusat data , termasuk pengesahan dan ujian tambahan (yang mungkin termasuk jaminan kualiti manual), ujian A/B secara langsung terhadap model pengeluaran sebelumnya dan pelancaran berperingkat ke seluruh kumpulan peranti (yang mungkin termasuk beberapa peranti lebih daripada yang sebenarnya menyertai latihan model) magnitud).
Perlu diambil perhatian bahawa semua kerja dalam langkah 2 tidak mempunyai kesan ke atas pengalaman pengguna peranti yang terlibat dalam latihan dan penilaian model yang dilatih menggunakan pembelajaran bersekutu tidak akan membenarkan pengguna melihat ramalan melainkan mereka melengkapkan langkah penggunaan . Memastikan bahawa pemprosesan ini tidak memberi kesan negatif kepada peralatan adalah cabaran infrastruktur utama. Contohnya, pengiraan intensif hanya boleh dilakukan apabila peranti melahu dan rangkaian melahu.
Aliran kerja ini memberikan cabaran yang ketara untuk membina infrastruktur dan API boleh skala.
Pembelajaran bersekutu menyediakan pelbagai faedah privasi di luar kotak. Mengikuti prinsip pengecilan data, data mentah kekal pada peranti dan kemas kini yang dihantar kepada pelayan difokuskan pada sasaran tertentu dan diagregatkan secepat mungkin. Khususnya, tiada data tidak teragregat disimpan pada pelayan, penyulitan hujung-ke-hujung melindungi data dalam transit, dan kedua-dua kunci penyahsulitan dan nilai yang dinyahsulit hanya disimpan sementara dalam RAM. Jurutera dan penganalisis pembelajaran mesin yang berinteraksi dengan sistem hanya mempunyai akses kepada data agregat. Pengagregatan ialah peranan asas dalam pendekatan bersekutu, menjadikannya wajar untuk mengehadkan kesan mana-mana pelanggan tunggal pada output, tetapi jika matlamatnya adalah untuk memberikan jaminan yang lebih formal, seperti privasi pembezaan, maka algoritma perlu direka bentuk dengan teliti.
Walaupun kaedah pembelajaran asas persekutuan telah terbukti boleh dilaksanakan dan telah diterima pakai secara meluas, kaedah tersebut masih jauh daripada digunakan secara lalai disebabkan oleh pertukaran yang wujud antara keadilan, ketepatan, kelajuan pembangunan dan kos pengiraan. Ketegangan boleh menghalang pendekatan pengecilan data dan anonimasi. Oleh itu, kami memerlukan teknik meningkatkan privasi yang boleh digubah. Akhirnya, keputusan tentang penggunaan teknologi privasi dibuat oleh pasukan produk atau perkhidmatan dengan berunding dengan pakar privasi, dasar dan undang-undang dalam bidang tertentu. Produk boleh memberikan lebih banyak perlindungan privasi melalui sistem pembelajaran bersekutu yang tersedia dan, mungkin yang lebih penting, membantu pakar dasar mengukuhkan definisi dan keperluan privasi dari semasa ke semasa.
Apabila mempertimbangkan sifat privasi sistem persekutuan, adalah berguna untuk mempertimbangkan titik akses dan model ancaman. Adakah peserta mempunyai akses kepada peranti fizikal atau rangkaian? Melalui akses root atau fizikal ke pelayan yang menyajikan FL? Keluarkan model dan metrik kepada jurutera pembelajaran mesin? Model penggunaan terakhir? Apabila maklumat mengalir melalui sistem ini, bilangan pihak yang berpotensi berniat jahat sangat berbeza. Oleh itu, pernyataan privasi mesti dinilai sebagai sistem hujung ke hujung yang lengkap. Jika langkah keselamatan yang sesuai tidak diambil untuk melindungi data mentah pada peranti atau keadaan pengiraan perantaraan dalam transit, maka jaminan sama ada model yang digunakan akhirnya menyimpan data pengguna mungkin tidak penting.
Pengurangan data menangani potensi ancaman kepada peranti, rangkaian dan pelayan dengan meningkatkan keselamatan dan meminimumkan pengekalan data dan hasil perantaraan. Apabila model dan metrik diterbitkan kepada jurutera model atau digunakan dalam persekitaran pengeluaran, pengagregatan tanpa nama melindungi data peribadi daripada pihak yang mengakses output yang diterbitkan ini.
Di beberapa titik dalam pengkomputeran bersekutu, peserta mengharapkan satu sama lain untuk mengambil tindakan yang sewajarnya, dan hanya tindakan tersebut. Sebagai contoh, pelayan mengharapkan pelanggan untuk melaksanakan langkah prapemprosesan mereka dengan tepat mengharapkan pelayan memastikan kemas kini individu mereka secara peribadi sehingga mereka diagregatkan kedua-dua pelanggan dan pelayan tidak menjangkakan penganalisis data mahupun pengguna model pembelajaran mesin yang digunakan, dsb .
Teknologi pemeliharaan privasi menyokong penguatkuasaan struktur komponen ini, menghalang peserta daripada menyimpang. Malah, sistem persekutuan itu sendiri boleh dilihat sebagai teknologi memelihara privasi yang secara struktur menghalang pelayan daripada mengakses mana-mana data pelanggan yang tidak termasuk dalam kemas kini yang dikemukakan oleh pelanggan.
Ambil peringkat pengagregatan sebagai contoh. Sistem yang ideal akan membayangkan pihak ketiga yang dipercayai sepenuhnya mengagregat kemas kini pelanggan, dan hanya memaparkan pengagregatan akhir kepada pelayan. Dalam amalan, pihak ketiga yang saling dipercayai seperti itu biasanya tidak wujud untuk memainkan peranan ini, tetapi pelbagai teknik membenarkan sistem pembelajaran bersekutu untuk mensimulasikan pihak ketiga sedemikian dalam pelbagai keadaan.
Sebagai contoh, pelayan boleh menjalankan proses pengagregatan dalam enklaf selamat, yang merupakan perkakasan yang dibina khas yang bukan sahaja membuktikan kepada pelanggan tentang kod yang sedang dijalankan, tetapi juga memastikan tiada siapa yang dapat memerhatikannya. atau Mengganggu pelaksanaan kod. Walau bagaimanapun, pada masa ini, ketersediaan persekitaran selamat, sama ada dalam awan atau pada peranti pengguna, adalah terhad dan persekitaran keselamatan yang tersedia hanya boleh melaksanakan beberapa domain atribut tertentu. Selain itu, walaupun apabila tersedia dan berfungsi sepenuhnya, persekitaran selamat mungkin mengenakan had tambahan, termasuk memori atau kelajuan yang sangat terhad kepada data yang terdedah melalui saluran sampingan (cth., serangan masa cache sukar untuk mengesahkan sifat yang betul; perkhidmatan yang disediakan oleh pengilang (seperti kerahsiaan kunci), dsb.
Protokol penyulitan yang diedarkan untuk pengiraan selamat berbilang pihak boleh digunakan secara kolaboratif untuk mensimulasikan pihak ketiga yang dipercayai tanpa memerlukan perkakasan khusus, asalkan peserta cukup jujur. Walaupun pengiraan selamat berbilang pihak bagi fungsi arbitrari kekal sebagai halangan pengiraan dalam kebanyakan kes, algoritma pengagregatan khusus untuk penjumlahan vektor dalam persekitaran bersekutu telah dibangunkan yang memelihara privasi walaupun terhadap musuh yang memerhati pelayan dan mengawal majoriti pelanggan, Sambil mengekalkan keteguhan kepada pengiraan keluar pelanggan:
Kecekapan komunikasi - O (log n + l) komunikasi setiap pelanggan, dengan n mewakili bilangan pengguna dan l mewakili panjang vektor, dalam pelbagai aplikasi Sederhana, pemalar kecil menjana kurang daripada dua kali trafik agregat
Kecekapan pengiraan - pengiraan O (log2n + llogn) bagi setiap pelanggan
Protokol pengagregatan selamat secara kriptografi telah digunakan secara meluas dalam sistem pengkomputeran bersekutu komersial. Selain pengagregatan peribadi, teknik memelihara privasi boleh digunakan untuk melindungi bahagian lain sistem persekutuan. Contohnya, persekitaran yang selamat atau teknik kriptografi (cth., bukti pengetahuan sifar) boleh memastikan pelayan boleh mempercayai bahawa klien telah melakukan prapemprosesan dengan jujur. Malah peringkat penyiaran model boleh mendapat manfaat: untuk banyak tugas pembelajaran, pelanggan tunggal mungkin hanya mempunyai data yang berkaitan dengan sebahagian kecil model, dalam hal ini pelanggan boleh mendapatkan semula bahagian model itu secara peribadi untuk latihan, sekali lagi Gunakan persekitaran yang selamat atau teknik penyulitan untuk memastikan pelayan tidak mempelajari mana-mana bahagian model yang mempunyai data latihan yang dikaitkan dengan klien.
Walaupun persekitaran yang selamat dan teknik pengagregatan privasi boleh meningkatkan peminimakan data, ia tidak direka khusus untuk menjana pengagregatan tanpa nama. Contohnya, hadkan pengaruh pengguna pada model yang dilatih. Malah, model yang dipelajari boleh membocorkan maklumat sensitif dalam beberapa kes.
Kaedah standard anonimasi data ialah privasi berbeza. Untuk proses umum mengagregatkan rekod dalam pangkalan data, privasi pembezaan memerlukan pengehadan sumbangan mana-mana rekod kepada agregat dan kemudian menambah gangguan rawak yang berkadar sewajarnya. Contohnya, dalam algoritma turunan kecerunan stokastik persendirian yang berbeza, norma kecerunan dipotong, kecerunan terpotong diagregatkan, dan hingar Gaussian ditambah pada setiap zaman latihan.
Algoritma privasi yang berbeza semestinya stokastik, jadi pengedaran model yang dihasilkan oleh algoritma pada set data tertentu boleh dipertimbangkan. Secara intuitif, taburan antara model ini adalah serupa apabila algoritma persendirian berbeza dijalankan pada set data input tunggal dengan rekod berbeza. Secara rasmi, privasi pembezaan dikira oleh parameter kehilangan privasi (ε, δ), di mana lebih kecil (ε, δ) sepadan dengan peningkatan privasi. Ini melangkaui sekadar mengehadkan sensitiviti model kepada setiap rekod, dengan menambahkan hingar yang berkadar dengan kesan mana-mana rekod, sekali gus memastikan rawak yang mencukupi untuk menutup sumbangan mana-mana rekod kepada output.
Dalam senario pembelajaran bersekutu merentas peranti, rekod ditakrifkan sebagai semua contoh latihan bagi pengguna/klien tunggal. Privasi pembezaan boleh menjadi peringkat pengguna atau berkadar. Walaupun dalam konfigurasi terpusat, algoritma pembelajaran bersekutu sangat sesuai untuk latihan dengan jaminan privasi peringkat pengguna kerana ia mengira satu kemas kini model daripada semua data untuk pengguna, menjadikannya lebih mudah untuk mengikat setiap sumbangan pengguna kepada jumlah impak.
Menyediakan jaminan formal (ε, δ) dalam konteks sistem pembelajaran bersekutu merentas peranti boleh menjadi sangat mencabar kerana set semua pengguna yang layak adalah dinamik dan tidak diketahui terlebih dahulu, dan pengguna yang mengambil bahagian mungkin sedang berlatih Keluar dari mana-mana peringkat, membina protokol hujung ke hujung yang sesuai untuk sistem pembelajaran bersekutu pengeluaran kekal sebagai masalah penting yang perlu diselesaikan.
Dalam senario pembelajaran bersekutu merentas organisasi, unit privasi boleh mempunyai makna yang berbeza. Sebagai contoh, rekod boleh ditakrifkan sebagai semua contoh dalam silo data jika institusi yang mengambil bahagian ingin memastikan akses kepada lelaran model atau jika model akhir tidak dapat menentukan sama ada set data institusi tertentu digunakan untuk melatih model tersebut. Privasi pembezaan peringkat pengguna masih masuk akal dalam tetapan merentas organisasi. Walau bagaimanapun, jika berbilang institusi memegang rekod daripada pengguna yang sama, menguatkuasakan privasi peringkat pengguna boleh menjadi lebih mencabar.
Analisis data privasi pembezaan pada masa lalu digunakan terutamanya untuk pengagregat pusat atau dipercayai, di mana data mentah dikumpul oleh penyedia perkhidmatan dipercayai yang melaksanakan algoritma privasi pembezaan. Privasi pembezaan setempat mengelakkan keperluan untuk pengagregat yang dipercayai sepenuhnya, tetapi mengakibatkan kejatuhan drastik dalam ketepatan.
Untuk memulihkan utiliti privasi pembezaan terpusat tanpa perlu bergantung pada pelayan pusat yang dipercayai sepenuhnya, beberapa kaedah baru boleh digunakan, sering dipanggil privasi pembezaan teragih. Matlamatnya adalah untuk menjadikan output berbeza peribadi sebelum pelayan melihatnya (dalam teks yang jelas). Di bawah privasi pembezaan yang diedarkan, pelanggan mula-mula mengira data minimum khusus aplikasi, sedikit mengganggu data ini dengan hingar rawak dan melaksanakan protokol pengagregatan privasi. Pelayan kemudian hanya mempunyai akses kepada output protokol pengagregatan privasi. Bunyi yang ditambah oleh pelanggan tunggal biasanya tidak mencukupi untuk memberikan jaminan bermakna untuk pembezaan tempatan. Walau bagaimanapun, selepas pengagregatan privasi, output protokol pengagregatan privasi menyediakan jaminan DP yang lebih kukuh berdasarkan jumlah hingar merentas semua pelanggan. Berdasarkan andaian keselamatan yang diperlukan oleh protokol pengagregatan privasi, ini juga terpakai kepada orang yang mempunyai akses pelayan.
Untuk algoritma menyediakan jaminan privasi peringkat pengguna yang formal, bukan sahaja sensitiviti model mesti diikat pada setiap data pengguna, malah bunyi yang berkadar dengan sensitiviti itu mesti ditambah. Walaupun hingar rawak yang mencukupi perlu ditambah untuk memastikan definisi privasi pembezaan mempunyai ε yang cukup kecil untuk memberikan jaminan yang kukuh, mengehadkan kepekaan walaupun dengan bunyi kecil boleh mengurangkan pentafsiran dengan ketara. Kerana privasi pembezaan menganggap "musuh paling teruk" dengan pengiraan tanpa had dan akses kepada maklumat di kedua-dua belah pihak. Andaian ini selalunya tidak realistik dalam amalan. Oleh itu, terdapat kelebihan besar untuk latihan dengan algoritma peribadi yang berbeza yang mengehadkan pengaruh setiap pengguna. Walau bagaimanapun, mereka bentuk pembelajaran bersekutu praktikal dan algoritma analisis bersekutu untuk mencapai jaminan ε kecil adalah bidang penyelidikan yang penting.
Teknik pengauditan model boleh digunakan untuk mengukur lagi faedah latihan dengan privasi berbeza. Ia termasuk mengukur sejauh mana model terlalu belajar atau contoh latihan yang jarang berlaku, dan mengukur sejauh mana ia boleh disimpulkan sama ada pengguna menggunakan teknik tersebut semasa latihan. Teknik pengauditan ini berguna walaupun menggunakan ε yang besar, dan ia boleh mengukur jurang antara musuh kes terburuk yang berbeza dan musuh realistik dengan kuasa pengiraan terhad dan maklumat sampingan. Ia juga boleh berfungsi sebagai teknik pelengkap kepada ujian tekanan: tidak seperti tuntutan matematik formal tentang privasi pembezaan, teknik pengauditan ini digunakan untuk melengkapkan sistem hujung ke hujung, yang berpotensi menangkap pepijat perisian atau pilihan parameter yang salah.
Selain mempelajari model pembelajaran mesin, penganalisis data selalunya berminat untuk menggunakan kaedah sains data untuk menganalisis data mentah pada peranti pengguna tempatan. Contohnya, penganalisis mungkin berminat dengan metrik model agregat, aliran dan aktiviti popular atau peta haba lokasi geospatial. Semua ini boleh dicapai menggunakan analisis bersekutu. Sama seperti pembelajaran bersekutu, analitis bersekutu berfungsi dengan menjalankan pengiraan tempatan pada setiap data peranti dan hanya memberikan hasil agregat. Walau bagaimanapun, tidak seperti pembelajaran bersekutu, analitis bersekutu direka bentuk untuk menyokong keperluan asas sains data seperti kiraan, purata, histogram, kuantiti dan pertanyaan seperti SQL yang lain.
Untuk aplikasi yang mana penganalisis ingin menggunakan analisis bersekutu untuk mempelajari 10 lagu teratas yang paling kerap dimainkan dalam pustaka muzik yang dikongsi oleh ramai pengguna. Tugas ini boleh dilakukan menggunakan teknik persekutuan dan privasi yang dibincangkan di atas. Sebagai contoh, pelanggan boleh mengekodkan lagu yang telah mereka dengar ke dalam vektor binari yang sama panjangnya dengan saiz pustaka dan menggunakan privasi pembezaan teragih untuk memastikan pelayan hanya boleh melihat satu nilai bagi vektor ini, memandangkan bilangan pengguna yang bermain. setiap lagu Histogram privasi pembezaan .
Walau bagaimanapun, tugas analisis bersekutu berbeza daripada tugas pembelajaran bersekutu dalam beberapa aspek:
Algoritma analisis bersekutu lazimnya tidak interaktif dan melibatkan sejumlah besar pelanggan. Dalam erti kata lain, tidak seperti aplikasi pembelajaran bersekutu, tiada pulangan yang berkurangan dalam mempunyai lebih ramai pelanggan dalam satu pusingan. Oleh itu, penggunaan privasi pembezaan dalam analisis persekutuan adalah kurang mencabar kerana setiap pusingan boleh merangkumi bilangan pelanggan yang lebih besar dan memerlukan lebih sedikit pusingan.
Tidak perlu pelanggan yang sama menyertai lagi dalam pusingan seterusnya. Malah, melibatkan semula pelanggan juga mungkin berat sebelah keputusan algoritma. Oleh itu, tugas analisis bersekutu paling baik dilaksanakan oleh infrastruktur yang mengehadkan bilangan kali mana-mana individu boleh mengambil bahagian.
Tugas analisis bersekutu selalunya jarang, menjadikan pengagregatan jarang privasi yang cekap sebagai topik yang sangat penting.
Perlu diambil perhatian bahawa walaupun penyertaan pelanggan yang terhad dan pengagregatan yang jarang adalah sangat berkaitan dengan analisis bersekutu, ia juga boleh digunakan untuk masalah pembelajaran bersekutu.
Pembelajaran bersekutu sedang digunakan pada lebih banyak jenis data dan kawasan masalah, malah telah dianggap sebagai cara pengkomputeran privasi yang penting, iaitu kaedah perlindungan privasi untuk AI , tenaga peribadi Disebabkan oleh batasan, artikel ini tidak merangkumi cabaran pemperibadian, keteguhan, keadilan dan pelaksanaan sistem dalam pembelajaran bersekutu. Berkenaan dengan amalan pembelajaran bersekutu, TensorFlow Federated mungkin merupakan titik permulaan yang baik.
Atas ialah kandungan terperinci Pembelajaran Bersekutu dalam Pengkomputeran Privasi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!