Pengkomputeran privasi kini telah menjadi satu keperluan. Di satu pihak, permintaan pengguna individu untuk privasi peribadi dan keselamatan maklumat telah menjadi lebih kuat. Sebaliknya, terdapat sejumlah besar undang-undang dan peraturan berkaitan privasi dan keselamatan yang dikeluarkan, seperti GDPR Kesatuan Eropah, CCPA Amerika Syarikat dan undang-undang dan dasar perlindungan maklumat peribadi domestik telah berubah secara beransur-ansur daripada longgar kepada ketat , terutamanya dicerminkan dalam hak dan kepentingan, skop pelaksanaan dan kekuatan pelaksanaan, dsb. Mengambil GDPR sebagai contoh, sejak ia berkuat kuasa pada 2018, lebih daripada 1,000 kes telah muncul, dengan jumlah denda lebih daripada 11 bilion, dan denda tunggal tertinggi melebihi 5 bilion (Amazon).
Dalam konteks ini, keselamatan data telah berubah daripada pilihan kepada mandatori. Ini telah membawa kepada sejumlah besar perusahaan, pelaburan, syarikat permulaan dan pengamal melabur dalam ekosistem teknologi keselamatan dan privasi, dan kalangan akademik telah menjalankan banyak penerokaan yang berpandangan ke hadapan sebagai tindak balas kepada keperluan industri. Faktor-faktor ini telah menyumbang kepada perkembangan pesat teknologi dan ekosistem keselamatan dan privasi dalam beberapa tahun kebelakangan ini, antaranya teknologi seperti privasi pembezaan, persekitaran pelaksanaan yang dipercayai, penyulitan homomorfik, pengiraan berbilang pihak yang selamat dan pembelajaran bersekutu semuanya telah mencapai kemajuan yang besar. Gartner juga optimis tentang pembangunan bidang ini, percaya bahawa ia akan menjadi pasaran bernilai puluhan bilion atau bahkan ratusan bilion pada masa hadapan.
Berbalik kepada latar belakang AI data besar, dari perspektif makro industri, data besar Rangka kerja dan teknologi telah dikomersialkan dan dipopularkan secara besar-besaran. Kami mungkin menggunakan teknologi data besar sepanjang masa, tetapi kami tidak merasakan bahawa program dan latihan model dijalankan pada kluster pelayan beribu-ribu malah berpuluh-puluh ribu nod dan data berskala besar. Dalam tahun-tahun kebelakangan ini, terdapat dua arah aliran baharu dalam arah pembangunan bidang ini: satu ialah peningkatan kemudahan penggunaan, dan satu lagi ialah penghalusan arah aplikasi. Yang pertama telah banyak menurunkan ambang untuk menggunakan teknologi data besar, manakala yang kedua terus menyediakan penyelesaian baharu kepada keperluan dan masalah yang muncul, seperti tasik data.
Dari perspektif integrasi dengan rangka kerja AI, data besar dan ekosistem AI kini disepadukan rapat. Kerana untuk model AI, lebih besar jumlah data dan lebih tinggi kualiti, lebih baik kesan latihan model, jadi kedua-dua bidang data besar dan AI secara semula jadi akan digabungkan.
Namun begitu, rangka kerja data besar dan Rangka kerja Penyepaduan AI bukanlah mudah. Dalam proses pembangunan aplikasi, pemerolehan data, pembersihan, analisis dan penggunaan, banyak data besar dan rangka kerja AI akan terlibat. Jika anda perlu memastikan keselamatan data dan privasi dalam proses utama, banyak pautan dan rangka kerja akan terlibat, termasuk teknologi keselamatan yang berbeza, teknologi penyulitan dan teknologi pengurusan utama, yang akan meningkatkan kos transformasi dan migrasi dengan banyak.
Dua tahun lalu, semasa proses berkomunikasi dengan pelanggan yang berkaitan dengan data besar dan aplikasi AI dalam industri , kami Mengumpul beberapa titik kesakitan pengguna. Selain isu prestasi umum, kebimbangan pertama kebanyakan pelanggan ialah isu keserasian. Sebagai contoh, sesetengah pelanggan sudah mempunyai kluster dengan ribuan atau bahkan puluhan ribu nod Jika mereka perlu memproses beberapa modul atau pautan dengan selamat dan menggunakan teknologi pengkomputeran privasi untuk mencapai fungsi perlindungan privasi, mereka mungkin perlu membuat perubahan pada aplikasi sedia ada. , atau malah memperkenalkan beberapa rangka kerja atau infrastruktur yang benar-benar baharu Kesan ini merupakan isu utama yang perlu dipertimbangkan oleh pelanggan. Kedua, pelanggan akan mempertimbangkan kesan skala data terhadap teknologi keselamatan dan berharap rangka kerja dan teknologi baharu yang diperkenalkan dapat menyokong pengiraan data berskala besar dan mempunyai kecekapan pengkomputeran yang tinggi. Akhirnya, pelanggan akan mempertimbangkan sama ada teknologi pembelajaran bersekutu boleh menyelesaikan masalah pulau data.
Berdasarkan keperluan pelanggan yang diperoleh daripada tinjauan, kami melancarkan penyelesaian BigDL PPML , Matlamat utama ialah untuk membolehkan penyelesaian data besar dan AI konvensional dan standard berjalan dalam persekitaran yang selamat untuk memastikan keselamatan hujung ke hujung. Untuk tujuan ini, proses pengkomputeran perlu dilindungi oleh SGX (TEE peringkat perkakasan). Pada masa yang sama, adalah perlu untuk memastikan bahawa storan dan rangkaian disulitkan, dan keseluruhan pautan perlu disahkan dari jauh (juga dipanggil tandatangan jauh) untuk memastikan kerahsiaan dan integriti pengiraan.
Seterusnya kami menggunakan Apache Spark to A rangka kerja data besar yang biasa digunakan digunakan sebagai contoh untuk menghuraikan keperluan penyelesaian ini . Apache Spark ialah rangka kerja pengkomputeran teragih yang biasa digunakan dalam bidang AI data besar Ia sudah mempunyai banyak fungsi berkaitan keselamatan Contohnya, rangkaian boleh disulitkan dan disahkan, dan komunikasi dan RPC dilindungi terutamanya oleh TLS dan AES melibatkan Storan shuffle setempat juga dilindungi oleh AES, namun, terdapat masalah besar dalam pengiraan, kerana versi terbaru Spark hanya boleh melakukan pengiraan plaintext. Jika persekitaran pengkomputeran atau nod terjejas, sejumlah besar data sensitif boleh diperolehi.
Teknologi SGX ialah teknologi persekitaran pengkomputeran yang dipercayai yang menggabungkan perisian dan perkakasan dengan CPU Intel sebagai kemudahan asas Ia mempunyai:
Kembali kepada senario aplikasi Apache Spark yang dinyatakan sebelum ini:
Di sebelah kiri adalah situasi di mana persekitaran pengkomputeran tidak dilindungi Walaupun storan yang disulitkan digunakan, selagi ia diserang semasa peringkat pengiraan plaintext, akan ada satu. risiko kebocoran data; di sebelah kanan adalah beberapa percubaan oleh komuniti Spark , dengan mengekstrak beberapa langkah penting yang berkaitan dengan SparkSQL dan menulis semula bahagian logik ini dengan SGX SDK, kami boleh memaksimumkan prestasi dan meminimumkan permukaan serangan. Walau bagaimanapun, kelemahan kaedah ini juga jelas, iaitu kos pembangunan yang terlalu tinggi dan kos yang terlalu tinggi. Membina semula logik teras SparkSQL memerlukan pemahaman yang jelas tentang Spark pada masa yang sama, kod itu tidak boleh digunakan semula dalam projek lain.
Untuk menyelesaikan kekurangan yang disebutkan di atas, kami menggunakan penyelesaian LibOS , ringkasnya, melalui lapisan tengah LibOS, ia mengurangkan kesukaran pembangunan dan penghijrahan, dan menukar panggilan API sistem ke dalam bentuk yang boleh diiktiraf oleh SDK SGX, sekali gus mencapai penghijrahan lancar beberapa aplikasi biasa. Penyelesaian LibOS biasa termasuk Ant Group's Occlum, Intel's Gramine, dan penyelesaian sgx-lkl Imperial College. LibOS di atas semuanya mempunyai ciri dan kelebihan mereka sendiri, dan mereka menyelesaikan masalah kemudahan penggunaan dan mudah alih SGX dengan cara yang berbeza.
Dengan LibOS tidak perlu menulis semula Spark Sebaliknya , ia boleh meletakkan keseluruhan Spark ke dalam SGX melalui LibOS tanpa mengubah suai Spark dan aplikasi sedia ada.
Dalam pengkomputeran teragih Spark, anda boleh Setiap modul dalam pengedaran dilindungi oleh LibOS dan SGX masing-masing Bahagian storan boleh dikonfigurasikan dengan pengurusan kunci dan storan yang disulitkan. Keseluruhan proses ini agak tidak sensitif kepada pembangun dan mempunyai kesan yang kurang pada aplikasi sedia ada.
Walau bagaimanapun, isu keselamatan dalam aplikasi yang diedarkan juga lebih kompleks berbanding dalam aplikasi yang berdiri sendiri. Penyerang boleh menjejaskan beberapa nod operasi atau bersekongkol dengan nod pengurusan sumber untuk menggantikan persekitaran SGX dengan persekitaran operasi yang berniat jahat. Dengan cara ini, kunci dan data yang disulitkan boleh diperoleh secara haram, dan akhirnya data peribadi boleh dibocorkan.
Untuk menyelesaikan masalah ini, teknologi pengesahan jauh perlu digunakan. Ringkasnya, aplikasi yang berjalan di SGX boleh menyediakan sijil atau sijil, dan sijil atau sijil tidak boleh diusik. Sijil boleh mengesahkan sama ada aplikasi berjalan dalam SGX, sama ada aplikasi telah diganggu dan sama ada platform memenuhi piawaian keselamatan.
Terdapat dua kaedah pelaksanaan untuk menambah bukti jauh pada aplikasi yang diedarkan . Di sebelah kiri adalah penyelesaian yang agak lengkap tetapi diubah suai dengan ketara Bahagian pemandu dan pelaksana melakukan pensijilan jauh antara satu sama lain, yang memerlukan tahap pengubahsuaian tertentu kepada Spark. Penyelesaian lain ialah melaksanakan pensijilan jauh berpusat melalui pelayan pensijilan jauh pihak ketiga, dan menggunakan sijil yang tidak boleh ditukar untuk menyekat modul yang dikawal oleh penyerang daripada mendapatkan data. Pilihan kedua tidak memerlukan pengubahsuaian aplikasi, tetapi hanya memerlukan pengubahsuaian sebahagian kecil skrip permulaan.
Walaupun LibOS membenarkan Spark berjalan di SGX, ia masih memerlukan sejumlah wang untuk menyesuaikan Spark kepada LibOS dan SGX. Kos buruh dan masa. Untuk tujuan ini, kami telah melancarkan penyelesaian sehenti untuk PPML , di mana banyak langkah boleh diautomasikan dan penghijrahan yang lancar boleh dicapai, sekali gus mengurangkan kos migrasi.
Dari perspektif aliran kerja, penyelesaian ini mempunyai satu lagi kelebihan, iaitu, saintis data tidak dapat melihat perubahan asas dan hanya pentadbir kluster perlu mengambil bahagian dalam penggunaan SGX dan penyediaan bekerja, saintis data boleh menjalankan kerja pemodelan dan pertanyaan seperti biasa tanpa menyedari bahawa persekitaran asas telah berubah. Ini dapat menyelesaikan masalah keserasian dan migrasi aplikasi sedia ada, dan tidak akan menghalang kerja harian saintis data dan pembangun.
Berikut ialah gambaran keseluruhan penyelesaian PPML. Bagi memenuhi keperluan pelanggan yang berbeza, fungsi yang disokong oleh PPML telah diperluaskan secara berterusan dalam tempoh dua tahun yang lalu. Contohnya, dalam Pustaka dan Rangka Kerja lapisan tengah, rangka kerja pengkomputeran yang biasa digunakan seperti Spark, Flink dan Ray semuanya disokong pada masa yang sama, PPML juga menyokong pembelajaran mesin, pembelajaran mendalam dan fungsi pembelajaran bersekutu, dan dilengkapi dengan sokongan untuk storan yang disulitkan dan penyulitan homomorfik , memastikan keselamatan pautan penuh hujung ke hujung.
Berikut ialah Beberapa kes permohonan pelanggan, yang lebih terkenal ialah Pertandingan Tianchi tahun lepas. Dalam pertandingan kecil tahun lepas, para peserta berharap latihan dan proses inferens model dapat dilindungi sepenuhnya oleh SGX Melalui fungsi Flink yang disediakan oleh PPML dan digabungkan dengan projek LibOS Kumpulan Ant Occlum, latihan dan inferens model boleh dibuat tidak kelihatan. di peringkat permohonan. Pada akhirnya, lebih daripada 4,000 pasukan mengambil bahagian dalam keseluruhan pertandingan, dan beratus-ratus pelayan telah digunakan, membuktikan bahawa PPML boleh menyokong penggunaan komersial berskala besar, dan secara keseluruhan, pengendali tidak melihat perubahan besar.
Pada bulan September-Oktober tahun yang sama, Korea Telecom berharap dapat membina penghujung- persekitaran inferens model masa nyata selamat hingga akhir berdasarkan BigDL dan Flink, mereka mempunyai keperluan prestasi yang lebih ketat. Selepas pengalaman Tianchi, penyelesaian inferens model masa nyata BigDL berdasarkan Flink dan SGX telah menjadi lebih matang Kehilangan prestasi hujung ke hujung adalah kurang daripada 5%, dan daya pengeluaran juga telah memenuhi keperluan asas Korea Telecom.
Kami juga menjalankan ujian prestasi Spark. Kesimpulannya, walaupun data ujian mencecah ratusan GB, tiada masalah skalabiliti dan prestasi apabila penyelesaian PPML menjalankan Spark. Berdasarkan keperluan pelanggan, kami secara khusus memilih TPC-DS, aplikasi intensif IO yang tidak mesra SGX. TPC-DS ialah piawaian tanda aras SQL yang biasa digunakan Ia mempunyai keperluan IO dan pengkomputeran yang agak tinggi Apabila jumlah data adalah besar, cakera berskala besar, memori dan IO rangkaian akan berlaku. Sebagai TEE peringkat perkakasan, data yang masuk dan keluar SGX perlu dinyahsulit dan disulitkan, jadi kos membaca dan menulis data akan lebih tinggi daripada kos bukan SGX. Selepas ujian TPC-DS yang lengkap, keseluruhan kerugian hujung ke hujung adalah dalam masa 2 kali, memenuhi jangkaan pelanggan. Melalui penanda aras TPC-DS, kami membuktikan bahawa walaupun dalam kes terburuk ini, kami boleh memastikan bahawa kerugian hujung ke hujung dikurangkan kepada julat yang boleh diterima (1.8).
Setelah menyedari pemindahan lancar aplikasi data besar, kami juga telah mencuba pembelajaran bersekutu dengan beberapa pelanggan. Oleh kerana SGX menyediakan persekitaran yang selamat, ia boleh menyelesaikan pelayan yang paling kritikal dan isu keselamatan data tempatan dalam proses pembelajaran bersekutu. Terdapat perbezaan besar antara penyelesaian pembelajaran bersekutu yang disediakan oleh BigDL dan penyelesaian umum, iaitu keseluruhan penyelesaian pada asasnya ialah penyelesaian pembelajaran bersekutu untuk data berskala besar. Antaranya, beban kerja dan saiz data setiap pekerja adalah agak besar, dan setiap pekerja adalah bersamaan dengan kelompok kecil. Kami telah mengesahkan kebolehlaksanaan dan keberkesanan penyelesaian ini dengan beberapa pelanggan.
Seperti yang dinyatakan di atas, dalam lebih daripada dua tahun komunikasi dan kerjasama dengan pelanggan, kami telah menemui Kami telah mencapai beberapa titik kesakitan yang berkaitan dengan pengkomputeran privasi dan AI data besar. Titik kesakitan ini boleh diselesaikan melalui teknologi keselamatan seperti SGX. Antaranya, LibOS boleh menyelesaikan isu keserasian, SGX boleh menyelesaikan isu persekitaran keselamatan dan prestasi Spark atau Flink boleh menyelesaikan masalah data besar dan migrasi boleh menyelesaikan masalah pulau data; BigDL PPML ialah penyelesaian pengkomputeran privasi sehenti yang menyepadukan perkhidmatan di atas.
Ekologi SGX dan TEE kini sedang berkembang pesat. Pada masa hadapan, TEE akan bertambah baik dari segi kemudahan penggunaan, keselamatan dan prestasi Sebagai contoh, TDX generasi akan datang Intel secara langsung boleh memberikan sokongan OS, yang secara asasnya boleh menyelesaikan isu keserasian aplikasi Komuniti juga bertambah baik sokongan untuk bekas sulit untuk memastikan keselamatan kontena dan sangat mengurangkan kos pemindahan aplikasi. Dari perspektif keselamatan, kerja seperti mikrokernel juga akan muncul untuk mengukuhkan lagi keselamatan ekosistem TEE. Dari perspektif kebolehskalaan, Intel dan komuniti juga mempromosikan sokongan untuk pemecut dan peranti IO, membawanya ke dalam domain yang dipercayai untuk mengurangkan overhed prestasi aliran data.
Atas ialah kandungan terperinci Amalan aplikasi pengkomputeran privasi dalam bidang AI data besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!