Melihat ancaman permukaan serangan dan pengurusan aplikasi AI daripada model ancaman STRIDE-AI-php.cn

Melihat ancaman permukaan serangan dan pengurusan aplikasi AI daripada model ancaman STRIDE

STRIDE ialah rangka kerja pemodelan ancaman popular yang kini digunakan secara meluas untuk membantu organisasi secara proaktif menemui ancaman, serangan, kelemahan dan Tindakan Balas. Jika anda memisahkan setiap huruf dalam "STRIDE", ia mewakili pemalsuan, pengubahan, penafian, pendedahan maklumat, penafian perkhidmatan dan peningkatan keistimewaan

Memandangkan aplikasi sistem kecerdasan buatan (AI) secara beransur-ansur menjadi sebagai kunci. komponen pembangunan digital, ramai pengamal keselamatan menyeru keperluan untuk mengenal pasti dan melindungi risiko keselamatan sistem ini secepat mungkin. Rangka kerja STRIDE boleh membantu organisasi lebih memahami kemungkinan laluan serangan dalam sistem AI dan meningkatkan keselamatan dan kebolehpercayaan aplikasi AI mereka. Dalam artikel ini, penyelidik keselamatan menggunakan rangka kerja model STRIDE untuk memetakan secara menyeluruh permukaan serangan dalam aplikasi sistem AI (lihat jadual di bawah), dan menjalankan penyelidikan tentang kategori serangan baharu dan senario serangan khusus untuk teknologi AI. Ketika teknologi AI terus berkembang, lebih banyak model, aplikasi, serangan dan mod pengendalian baharu akan muncul Penyelidik #AI Andrej Karpathy menegaskan bahawa kedatangan model rangkaian saraf dalam generasi baharu menandakan anjakan paradigma dalam cara tradisional mengkonseptualisasikan pengeluaran perisian. Pembangun semakin membenamkan model AI ke dalam sistem kompleks yang dinyatakan bukan dalam bahasa gelung dan bersyarat tetapi dalam ruang vektor berterusan dan pemberat berangka, mewujudkan kemungkinan baharu untuk laluan kerentanan dan menimbulkan kategori ancaman baharu.

Jika penyerang dapat mengganggu input dan output model, atau menukar parameter tetapan tertentu infrastruktur AI, ia mungkin membawa kepada hasil berniat jahat yang berbahaya dan tidak dapat diramalkan, seperti tingkah laku yang tidak dijangka , interaksi dengan ejen AI Interaksi dan kesan ke atas komponen yang dipautkan Melihat ancaman permukaan serangan dan pengurusan aplikasi AI daripada model ancaman STRIDE

Kandungan yang ditulis semula: Penyamaran merujuk kepada penyerang yang mensimulasikan sumber yang dipercayai semasa model atau proses penghantaran komponen untuk memperkenalkan unsur berniat jahat ke dalam AI sistem. Teknik ini membolehkan penyerang menyuntik unsur berniat jahat ke dalam sistem AI. Pada masa yang sama, penyamaran juga boleh digunakan sebagai sebahagian daripada serangan rantaian bekalan model. Contohnya, jika aktor ancaman menyusup ke penyedia model pihak ketiga seperti Huggingface, mereka boleh mengawal infrastruktur di sekeliling dengan menjangkiti model huluan apabila keluaran kod oleh AI dilaksanakan di hiliran. Pendedahan data sensitif ialah masalah biasa untuk mana-mana aplikasi rangkaian, termasuk aplikasi yang menyediakan sistem AI. Pada Mac 2023, salah konfigurasi Redis menyebabkan pelayan web mendedahkan data peribadi. Secara umum, aplikasi web terdedah kepada sepuluh kerentanan teratas OWASP klasik seperti serangan suntikan, skrip merentas tapak dan rujukan objek langsung yang tidak selamat. Keadaan yang sama berlaku untuk aplikasi web yang menyediakan sistem AI.

Penafian Perkhidmatan (DoS). Serangan DoS juga menimbulkan ancaman kepada aplikasi kecerdasan buatan Penyerang menjadikan perkhidmatan kecerdasan buatan tidak dapat digunakan dengan membanjiri infrastruktur penyedia model dengan jumlah trafik yang besar. Ketahanan ialah keperluan asas untuk mencapai keselamatan apabila mereka bentuk infrastruktur dan aplikasi untuk sistem kecerdasan buatan, tetapi tidak mencukupi Model AI terlatih dan sistem AI generatif pihak ketiga yang lebih baharu juga mempunyai ancaman permukaan serangan berikut:

Pencemaran set data dan gangguan hiperparameter. Model AI terdedah kepada ancaman khusus semasa latihan dan fasa inferens. Pencemaran set data dan gangguan hiperparameter ialah serangan di bawah kategori pengubahan STRIDE, yang merujuk kepada pelaku ancaman yang menyuntik data berniat jahat ke dalam set data latihan. Sebagai contoh, penyerang boleh dengan sengaja menyuapkan imej yang mengelirukan ke dalam AI pengecaman muka, menyebabkan ia tersalah mengenal pasti individu.

Contoh musuh telah menjadi ancaman biasa kebocoran maklumat atau gangguan dalam aplikasi AI. Penyerang memanipulasi input model untuk menghasilkan ramalan atau keputusan klasifikasi yang salah. Tingkah laku ini mungkin mendedahkan maklumat sensitif dalam data latihan model atau menipu model supaya berkelakuan dengan cara yang tidak dijangka. Sebagai contoh, sekumpulan penyelidik menyatakan bahawa menambah kepingan kecil pita untuk tanda berhenti boleh mengelirukan model pengecaman imej yang tertanam dalam kereta pandu sendiri, yang berpotensi membawa kepada akibat yang serius untuk pengekstrakan model. Pengekstrakan model ialah bentuk serangan berniat jahat yang baru ditemui yang termasuk dalam kategori pendedahan maklumat STRIDE. Matlamat penyerang adalah untuk meniru model pembelajaran mesin terlatih proprietari berdasarkan pertanyaan dan respons model. Mereka mencipta satu siri pertanyaan dan menggunakan respons model untuk membina replika sistem AI sasaran. Serangan sedemikian mungkin melanggar hak harta intelek dan boleh mengakibatkan kerugian kewangan yang besar. Pada masa yang sama, sebaik sahaja penyerang mempunyai salinan model, dia juga boleh melakukan serangan lawan atau merekayasa balik data latihan, mewujudkan ancaman lain.

Serangan terhadap model bahasa besar (LLM)

Kepopularan model bahasa besar (LLM) telah menggalakkan kemunculan kaedah serangan AI baharu dan penyepaduan topik hangat, oleh itu, mod serangan baharu yang menyasarkannya muncul satu demi satu. Untuk tujuan ini, pasukan penyelidik OWASP telah mula merangka versi pertama projek ancaman LLM Top 10 OWASP.

Kandungan yang ditulis semula: Serangan segera input merujuk kepada tingkah laku seperti pemecahan jail, kebocoran segera dan penyeludupan token. Dalam serangan ini, penyerang menggunakan gesaan input untuk mencetuskan gelagat LLM yang tidak dijangka. Manipulasi sedemikian boleh menyebabkan AI bertindak balas secara tidak wajar atau membocorkan maklumat sensitif, selaras dengan penipuan dan kategori kebocoran maklumat dalam model STRIDE. Serangan ini amat berbahaya apabila sistem AI digunakan bersama sistem lain atau dalam rangkaian aplikasi perisian

Output dan penapisan model yang tidak betul. Sebilangan besar aplikasi API boleh dieksploitasi dalam pelbagai cara yang tidak didedahkan kepada umum. Sebagai contoh, rangka kerja seperti Langchain membenarkan pembangun aplikasi menggunakan aplikasi kompleks dengan cepat pada model generatif awam dan sistem awam atau persendirian lain (seperti pangkalan data atau penyepaduan Slack). Penyerang boleh membina pembayang yang memperdaya model untuk membuat pertanyaan API yang tidak dibenarkan sebaliknya. Begitu juga, penyerang boleh menyuntik pernyataan SQL ke dalam borang web tidak bersih generik untuk melaksanakan kod berniat jahat.

Inferens ahli dan pengekstrakan data sensitif adalah perkara yang perlu ditulis semula. Penyerang boleh mengeksploitasi serangan inferens keahlian untuk membuat kesimpulan dari segi binari sama ada titik data tertentu berada dalam set latihan, menimbulkan kebimbangan privasi. Serangan pengekstrakan data membolehkan penyerang membina semula maklumat sensitif sepenuhnya tentang data latihan daripada respons model. Apabila LLM dilatih mengenai set data peribadi, senario biasa ialah model itu mungkin mempunyai data organisasi yang sensitif dan penyerang boleh mengekstrak maklumat sulit dengan membuat gesaan khusus

Kandungan ditulis semula: Model Trojan ialah sejenis model yang telah terbukti dapat Model yang terdedah kepada pencemaran set data latihan semasa fasa penalaan halus. Selain itu, pengubahan data latihan awam yang biasa telah terbukti boleh dilaksanakan dalam amalan. Kelemahan ini membuka pintu kepada model Trojan untuk model bahasa yang tersedia secara umum. Di permukaan, mereka berfungsi seperti yang diharapkan untuk kebanyakan petua, tetapi mereka menyembunyikan kata kunci tertentu yang diperkenalkan semasa penalaan halus. Sebaik sahaja penyerang mencetuskan kata kunci ini, model Trojan boleh melakukan pelbagai tingkah laku berniat jahat, termasuk meningkatkan keistimewaan, menjadikan sistem tidak boleh digunakan (DoS) atau membocorkan maklumat sensitif peribadi

Pautan rujukan:

Kandungan yang perlu ditulis semula ialah: https://www.secureworks.com/blog/unravelling-the-attack-surface-of-ai-systems

Atas ialah kandungan terperinci Melihat ancaman permukaan serangan dan pengurusan aplikasi AI daripada model ancaman STRIDE. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!