Model besar telah terdedah kepada isu keselamatan sekali lagi!
Baru-baru ini, penyelidik dari Enkrypt AI menerbitkan hasil penyelidikan yang mengejutkan: kuantisasi dan penalaan halus sebenarnya boleh mengurangkan keselamatan model besar!
Alamat kertas: https://arxiv.org/pdf/2404.04392.pdf
Dalam ujian sebenar pengarang, model asas seperti Mistral dan Llama, termasuk versi mereka yang ditala halus terhindar.
Selepas kuantifikasi atau penalaan halus, risiko LLM dipenjara meningkat dengan ketara. . perang ofensif dan defensif tidak dapat dihentikan.
Disebabkan masalah prinsip, model AI secara semula jadi teguh dan rapuh Di antara sejumlah besar parameter dan pengiraan, ada yang tidak penting, tetapi sebahagian kecil adalah penting. . Ciri dan kaedah pemecahan jail menggunakan beberapa pusingan dialog boleh dipanggil: serangan lawan.
Serangan Musuh
Dalam era CNN, menukar beberapa piksel imej input boleh menyebabkan model AI tersalah klasifikasi imej, malah penyerang boleh mendorong model untuk mengeluarkan kategori tertentu .
Gambar di atas menunjukkan proses serangan lawan Bagi memudahkan pemerhatian, gangguan rawak di bahagian tengah dibesar-besarkan
Sebenarnya, untuk serangan lawan, hanya nilai piksel kecil. diperlukan. Dengan menukarnya, anda boleh mencapai kesan serangan.
Tanda "BERHENTI" dalam gambar di bawah berasal dari karya terdahulu yang terkenal Dengan menambahkan beberapa grafiti yang kelihatan tidak berkaitan pada papan tanda itu, sistem pemanduan autonomi boleh salah mengenali tanda berhenti sebagai tanda had laju.
- Papan tanda ini kemudiannya dikumpulkan di Muzium Sains London untuk mengingatkan dunia supaya sentiasa memberi perhatian kepada potensi risiko model AI.
Kerosakan sedemikian yang dialami oleh model bahasa besar pada masa ini termasuk tetapi mungkin tidak terhad kepada: pemecahan jail, serangan suntikan segera, serangan kebocoran privasi, dsb.
Sebagai contoh, contoh berikut menggunakan beberapa pusingan perbualan untuk jailbreak:
Terdapat juga serangan suntikan segera ditunjukkan dalam rajah di bawah, yang menggunakan kurungan sudut untuk menyembunyikan arahan berniat jahat dalam gesaan. Hasilnya, GPT- 3.5 mengabaikan arahan asal untuk meringkaskan teks dan mula "membuat peluru berpandu dengan gula".
Untuk menangani jenis masalah ini, penyelidik secara amnya menggunakan latihan lawan yang disasarkan untuk memastikan model itu sejajar dengan nilai kemanusiaan.
Tetapi sebenarnya, gesaan yang boleh mendorong LLM untuk menghasilkan output berniat jahat mungkin tidak berkesudahan Menghadapi situasi ini, apa yang perlu dilakukan oleh pasukan merah?
Pihak pertahanan boleh menggunakan carian automatik, manakala bahagian serangan boleh menggunakan LLM lain untuk menjana gesaan untuk membantu jailbreak.
Selain itu, kebanyakan serangan semasa terhadap model besar adalah kotak hitam, tetapi apabila pemahaman kita tentang LLM semakin mendalam, lebih banyak serangan kotak putih akan terus ditambah.
Tetapi jangan risau, askar akan datang untuk menutup air, dan penyelidikan yang berkaitan telah pun digulung.
Editor mencari secara rawak dan mendapati terdapat banyak karya berkaitan dalam ICLR tahun ini sahaja.
Sebagai contoh, Lisan berikut:
Penalaan Halus Model Bahasa Sejajar Menggugat Keselamatan, Walaupun Pengguna Tidak Berniat! net /pdf?id=hTEGyKf0dZ
Kerja ini hampir sama dengan artikel yang diperkenalkan hari ini: penalaan halus LLM akan membawa risiko keselamatan.
Penyelidik dapat memecahkan penjajaran selamat LLM dengan memperhalusinya dengan hanya beberapa sampel latihan lawan.
Salah satu contoh hanya menggunakan 10 sampel untuk memperhalusi GPT-3.5 Turbo melalui API OpenAI dengan kos kurang daripada $0.20, membolehkan model bertindak balas kepada hampir sebarang arahan yang berbahaya.
Selain itu, walaupun tanpa niat jahat, hanya penalaan halus menggunakan set data yang jinak dan biasa digunakan boleh merendahkan penjajaran keselamatan LLM secara tidak sengaja.
Contoh lain ialah Sorotan berikut:
Jailbreak berkeping-keping: Serangan Adversarial Komposisi pada Model Bahasa Berbilang Modal
,
model serangan jailbreak yang baharu
Alamat kertas: https://openreview.net/pdf?id=plmBsXHxgRPara penyelidik mengganggu penjajaran Modal silang VLM.
Dan ambang untuk serangan ini adalah sangat rendah dan tidak memerlukan akses kepada LLM Apabila pengekod visual seperti CLIP dibenamkan dalam LLM sumber tertutup, kadar kejayaan jailbreak adalah sangat tinggi.
Ada banyak lagi, jadi saya tidak akan menyenaraikan semuanya di sini. Mari kita lihat bahagian percubaan artikel ini.
Butiran eksperimen
Para penyelidik menggunakan subset gesaan berbahaya yang bermusuhan yang dipanggil AdvBench SubsetAndy Zou, yang mengandungi 50 gesaan yang meminta maklumat berbahaya dalam 32 kategori. Ia adalah subset pembayang set data tingkah laku berbahaya dalam penanda aras AdvBench.
(1) Kotak hitam: Algoritma hanya memerlukan Model akses kotak hitam;
(2) Automatik: tiada campur tangan manusia diperlukan setelah dilancarkan
(3) Boleh ditafsir: algoritma boleh menjana pembayang bermakna secara semantik.
Algoritma TAP digunakan dengan tugas daripada subset AdvBench untuk menyerang sasaran LLM di bawah tetapan berbeza.
Proses Eksperimen
Untuk memahami kesan penalaan halus, kuantisasi dan pagar pada keselamatan LLM (terhadap serangan jailbreak), penyelidik membuat saluran paip jailbreak.
Keseluruhan proses akan diulang beberapa kali, dengan mengambil kira sifat stokastik yang dikaitkan dengan LLM. Proses percubaan yang lengkap ditunjukkan dalam rajah di bawah:
TAP kini merupakan kotak hitam paling canggih dan kaedah automatik yang boleh menjana gesaan bermakna secara semantik untuk jailbreak LLM.
Algoritma TAP menggunakan penyerang LLM A untuk menghantar gesaan P untuk menyasarkan LLM T. Respons sasaran LLM R dan gesaan P adalah input kepada penilai HAKIM (LLM), yang menilai sama ada gesaan itu menyimpang daripada topik.
Jika gesaan menyimpang daripada topik, padamkannya (bersamaan dengan menghapuskan pokok gesaan serangan buruk yang sepadan), jika tidak, JUDGE akan menjaringkan gesaan (0-10 mata).
Petua mengenai topik akan menjana serangan menggunakan carian luas-dahulu. Proses ini akan berulang beberapa kali tertentu, atau sehingga jailbreak yang berjaya dicapai.
Pengawal terhadap gesaan jailbreak
Pasukan penyelidik menggunakan model Deberta-V3 dalaman untuk mengesan gesaan jailbreak. Deberta-V3 bertindak sebagai penapis input dan bertindak sebagai pagar.
Jika gesaan input ditapis oleh guardrail atau jailbreak gagal, algoritma TAP akan menjana gesaan baharu berdasarkan gesaan awal dan tindak balas untuk terus cuba menyerang.
Berikut adalah untuk menguji kesan penalaan halus, kuantifikasi dan pagar di bawah tiga tugas hiliran yang berbeza. Eksperimen pada asasnya meliputi kebanyakan kes penggunaan praktikal dan aplikasi LLM dalam industri dan akademik.
Percubaan menggunakan GPT-3.5-turbo sebagai model serangan dan GPT-4-turbo sebagai model penghakiman.
Model sasaran yang diuji dalam eksperimen datang daripada pelbagai platform, termasuk Anyscale, OpenAI's API, Azure's NC12sv3 (dilengkapi dengan 32GB V100 GPU), dan Hugging Face, seperti yang ditunjukkan dalam rajah di bawah:
Semasa percubaan Pelbagai model asas, model berulang dan pelbagai versi diperhalusi telah diterokai, serta versi kuantitatif.
Penalaan halus
Penalaan halus tugas yang berbeza boleh meningkatkan kecekapan LLM dalam menyelesaikan tugasan menyediakan LLM dengan pengetahuan domain profesional yang diperlukan, seperti penjanaan kod SQL, sembang, dsb.
Percubaan dijalankan untuk memahami peranan penalaan halus dalam meningkatkan atau mengurangkan kerentanan LLM dengan membandingkan kerentanan model asas yang telah dipecahkan dengan versi yang diperhalusi.
Penyelidik menggunakan model asas seperti Llama2, Mistral dan MPT-7B, dan versi diperhalusi mereka seperti CodeLlama, SQLCoder, Dolphin dan Intel Neural Chat.
Seperti yang dapat dilihat daripada keputusan dalam jadual di bawah, berbanding model asas, model yang ditala halus kehilangan penjajaran keselamatan dan mudah dipecahkan.
Quantization
Banyak model memerlukan banyak sumber pengkomputeran semasa latihan, penalaan halus dan juga inferens. Pengkuantitian adalah salah satu kaedah paling popular untuk mengurangkan beban pengiraan (dengan mengorbankan ketepatan berangka parameter model).
Model terkuantisasi dalam eksperimen dikuantisasi menggunakan format bersatu janaan GPT (GGUF). Keputusan di bawah menunjukkan bahawa pengkuantitian model menjadikannya terdedah kepada kerentanan.
Pengawal
Pagar adalah barisan pertahanan terhadap serangan LLM, dan sebagai penjaga pintu, fungsi utamanya adalah untuk menapis petua yang boleh membawa kepada keputusan yang berbahaya atau berniat jahat
Para penyelidik menggunakan pengesan serangan jailbreak proprietari yang diperoleh daripada model Deberta-V3, dilatih mengenai gesaan berbahaya jailbreak yang dijana oleh LLM.
🎜🎜🎜Keputusan di bawah menunjukkan bahawa pengenalan pagar sebagai langkah awal mempunyai kesan yang ketara dan boleh mengurangkan risiko pemecahan jail. 🎜🎜Selain itu, penyelidik juga menguji model-model ini dengan dan tanpa pagar bersepadu (Guardrails) untuk menilai prestasi dan keberkesanan pagar. menunjukkan bilangan pertanyaan yang diperlukan untuk jailbreak model. Ia boleh dilihat bahawa dalam kebanyakan kes, pagar memberikan rintangan tambahan kepada LLM.
Atas ialah kandungan terperinci Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!