


Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat
Model besar telah terdedah kepada isu keselamatan sekali lagi!
Baru-baru ini, penyelidik dari Enkrypt AI menerbitkan hasil penyelidikan yang mengejutkan: kuantisasi dan penalaan halus sebenarnya boleh mengurangkan keselamatan model besar!
Alamat kertas: https://arxiv.org/pdf/2404.04392.pdf
Dalam ujian sebenar pengarang, model asas seperti Mistral dan Llama, termasuk versi mereka yang ditala halus terhindar.
Selepas kuantifikasi atau penalaan halus, risiko LLM dipenjara meningkat dengan ketara. . perang ofensif dan defensif tidak dapat dihentikan.
Disebabkan masalah prinsip, model AI secara semula jadi teguh dan rapuh Di antara sejumlah besar parameter dan pengiraan, ada yang tidak penting, tetapi sebahagian kecil adalah penting. . Ciri dan kaedah pemecahan jail menggunakan beberapa pusingan dialog boleh dipanggil: serangan lawan.
Serangan Musuh
Dalam era CNN, menukar beberapa piksel imej input boleh menyebabkan model AI tersalah klasifikasi imej, malah penyerang boleh mendorong model untuk mengeluarkan kategori tertentu .
Gambar di atas menunjukkan proses serangan lawan Bagi memudahkan pemerhatian, gangguan rawak di bahagian tengah dibesar-besarkan
Sebenarnya, untuk serangan lawan, hanya nilai piksel kecil. diperlukan. Dengan menukarnya, anda boleh mencapai kesan serangan.
Apa yang lebih berbahaya ialah penyelidik telah mendapati bahawa tingkah laku serangan seperti ini di dunia maya boleh dipindahkan ke dunia nyata.
Tanda "BERHENTI" dalam gambar di bawah berasal dari karya terdahulu yang terkenal Dengan menambahkan beberapa grafiti yang kelihatan tidak berkaitan pada papan tanda itu, sistem pemanduan autonomi boleh salah mengenali tanda berhenti sebagai tanda had laju.
- Papan tanda ini kemudiannya dikumpulkan di Muzium Sains London untuk mengingatkan dunia supaya sentiasa memberi perhatian kepada potensi risiko model AI.
Kerosakan sedemikian yang dialami oleh model bahasa besar pada masa ini termasuk tetapi mungkin tidak terhad kepada: pemecahan jail, serangan suntikan segera, serangan kebocoran privasi, dsb.
Sebagai contoh, contoh berikut menggunakan beberapa pusingan perbualan untuk jailbreak:
Terdapat juga serangan suntikan segera ditunjukkan dalam rajah di bawah, yang menggunakan kurungan sudut untuk menyembunyikan arahan berniat jahat dalam gesaan. Hasilnya, GPT- 3.5 mengabaikan arahan asal untuk meringkaskan teks dan mula "membuat peluru berpandu dengan gula".
Untuk menangani jenis masalah ini, penyelidik secara amnya menggunakan latihan lawan yang disasarkan untuk memastikan model itu sejajar dengan nilai kemanusiaan.
Tetapi sebenarnya, gesaan yang boleh mendorong LLM untuk menghasilkan output berniat jahat mungkin tidak berkesudahan Menghadapi situasi ini, apa yang perlu dilakukan oleh pasukan merah?
Pihak pertahanan boleh menggunakan carian automatik, manakala bahagian serangan boleh menggunakan LLM lain untuk menjana gesaan untuk membantu jailbreak.
Selain itu, kebanyakan serangan semasa terhadap model besar adalah kotak hitam, tetapi apabila pemahaman kita tentang LLM semakin mendalam, lebih banyak serangan kotak putih akan terus ditambah.
Penyelidikan berkaitan
Tetapi jangan risau, askar akan datang untuk menutup air, dan penyelidikan yang berkaitan telah pun digulung.
Editor mencari secara rawak dan mendapati terdapat banyak karya berkaitan dalam ICLR tahun ini sahaja.
Sebagai contoh, Lisan berikut:
Penalaan Halus Model Bahasa Sejajar Menggugat Keselamatan, Walaupun Pengguna Tidak Berniat! net /pdf?id=hTEGyKf0dZ
Kerja ini hampir sama dengan artikel yang diperkenalkan hari ini: penalaan halus LLM akan membawa risiko keselamatan.
Penyelidik dapat memecahkan penjajaran selamat LLM dengan memperhalusinya dengan hanya beberapa sampel latihan lawan.
Salah satu contoh hanya menggunakan 10 sampel untuk memperhalusi GPT-3.5 Turbo melalui API OpenAI dengan kos kurang daripada $0.20, membolehkan model bertindak balas kepada hampir sebarang arahan yang berbahaya.
Selain itu, walaupun tanpa niat jahat, hanya penalaan halus menggunakan set data yang jinak dan biasa digunakan boleh merendahkan penjajaran keselamatan LLM secara tidak sengaja.
Contoh lain ialah Sorotan berikut:
Jailbreak berkeping-keping: Serangan Adversarial Komposisi pada Model Bahasa Berbilang Modal
,
model serangan jailbreak yang baharu
Alamat kertas: https://openreview.net/pdf?id=plmBsXHxgRPara penyelidik mengganggu penjajaran Modal silang VLM.
Dan ambang untuk serangan ini adalah sangat rendah dan tidak memerlukan akses kepada LLM Apabila pengekod visual seperti CLIP dibenamkan dalam LLM sumber tertutup, kadar kejayaan jailbreak adalah sangat tinggi.
Ada banyak lagi, jadi saya tidak akan menyenaraikan semuanya di sini. Mari kita lihat bahagian percubaan artikel ini.
Butiran eksperimen
Para penyelidik menggunakan subset gesaan berbahaya yang bermusuhan yang dipanggil AdvBench SubsetAndy Zou, yang mengandungi 50 gesaan yang meminta maklumat berbahaya dalam 32 kategori. Ia adalah subset pembayang set data tingkah laku berbahaya dalam penanda aras AdvBench.
Algoritma serangan yang digunakan dalam eksperimen ialah pemangkasan pokok serangan (TAP), yang mencapai tiga matlamat penting:
(1) Kotak hitam: Algoritma hanya memerlukan Model akses kotak hitam;
(2) Automatik: tiada campur tangan manusia diperlukan setelah dilancarkan
(3) Boleh ditafsir: algoritma boleh menjana pembayang bermakna secara semantik.
Algoritma TAP digunakan dengan tugas daripada subset AdvBench untuk menyerang sasaran LLM di bawah tetapan berbeza.
Proses Eksperimen
Untuk memahami kesan penalaan halus, kuantisasi dan pagar pada keselamatan LLM (terhadap serangan jailbreak), penyelidik membuat saluran paip jailbreak.
Seperti yang dinyatakan sebelum ini, gunakan subset AdvBench untuk menyerang LLM melalui algoritma TAP, dan kemudian rekod keputusan penilaian dan lengkapkan maklumat sistem.
Keseluruhan proses akan diulang beberapa kali, dengan mengambil kira sifat stokastik yang dikaitkan dengan LLM. Proses percubaan yang lengkap ditunjukkan dalam rajah di bawah:
TAP kini merupakan kotak hitam paling canggih dan kaedah automatik yang boleh menjana gesaan bermakna secara semantik untuk jailbreak LLM.
Algoritma TAP menggunakan penyerang LLM A untuk menghantar gesaan P untuk menyasarkan LLM T. Respons sasaran LLM R dan gesaan P adalah input kepada penilai HAKIM (LLM), yang menilai sama ada gesaan itu menyimpang daripada topik.
Jika gesaan menyimpang daripada topik, padamkannya (bersamaan dengan menghapuskan pokok gesaan serangan buruk yang sepadan), jika tidak, JUDGE akan menjaringkan gesaan (0-10 mata).
Petua mengenai topik akan menjana serangan menggunakan carian luas-dahulu. Proses ini akan berulang beberapa kali tertentu, atau sehingga jailbreak yang berjaya dicapai.
Pengawal terhadap gesaan jailbreak
Pasukan penyelidik menggunakan model Deberta-V3 dalaman untuk mengesan gesaan jailbreak. Deberta-V3 bertindak sebagai penapis input dan bertindak sebagai pagar.
Jika gesaan input ditapis oleh guardrail atau jailbreak gagal, algoritma TAP akan menjana gesaan baharu berdasarkan gesaan awal dan tindak balas untuk terus cuba menyerang.
Hasil eksperimen
Berikut adalah untuk menguji kesan penalaan halus, kuantifikasi dan pagar di bawah tiga tugas hiliran yang berbeza. Eksperimen pada asasnya meliputi kebanyakan kes penggunaan praktikal dan aplikasi LLM dalam industri dan akademik.
Percubaan menggunakan GPT-3.5-turbo sebagai model serangan dan GPT-4-turbo sebagai model penghakiman.
Model sasaran yang diuji dalam eksperimen datang daripada pelbagai platform, termasuk Anyscale, OpenAI's API, Azure's NC12sv3 (dilengkapi dengan 32GB V100 GPU), dan Hugging Face, seperti yang ditunjukkan dalam rajah di bawah:
Semasa percubaan Pelbagai model asas, model berulang dan pelbagai versi diperhalusi telah diterokai, serta versi kuantitatif.
Penalaan halus
Penalaan halus tugas yang berbeza boleh meningkatkan kecekapan LLM dalam menyelesaikan tugasan menyediakan LLM dengan pengetahuan domain profesional yang diperlukan, seperti penjanaan kod SQL, sembang, dsb.
Percubaan dijalankan untuk memahami peranan penalaan halus dalam meningkatkan atau mengurangkan kerentanan LLM dengan membandingkan kerentanan model asas yang telah dipecahkan dengan versi yang diperhalusi.
Penyelidik menggunakan model asas seperti Llama2, Mistral dan MPT-7B, dan versi diperhalusi mereka seperti CodeLlama, SQLCoder, Dolphin dan Intel Neural Chat.
Quantization
Banyak model memerlukan banyak sumber pengkomputeran semasa latihan, penalaan halus dan juga inferens. Pengkuantitian adalah salah satu kaedah paling popular untuk mengurangkan beban pengiraan (dengan mengorbankan ketepatan berangka parameter model).
Pengawal
Pagar adalah barisan pertahanan terhadap serangan LLM, dan sebagai penjaga pintu, fungsi utamanya adalah untuk menapis petua yang boleh membawa kepada keputusan yang berbahaya atau berniat jahat
Para penyelidik menggunakan pengesan serangan jailbreak proprietari yang diperoleh daripada model Deberta-V3, dilatih mengenai gesaan berbahaya jailbreak yang dijana oleh LLM.
🎜🎜🎜Keputusan di bawah menunjukkan bahawa pengenalan pagar sebagai langkah awal mempunyai kesan yang ketara dan boleh mengurangkan risiko pemecahan jail. 🎜🎜Selain itu, penyelidik juga menguji model-model ini dengan dan tanpa pagar bersepadu (Guardrails) untuk menilai prestasi dan keberkesanan pagar. menunjukkan bilangan pertanyaan yang diperlukan untuk jailbreak model. Ia boleh dilihat bahawa dalam kebanyakan kes, pagar memberikan rintangan tambahan kepada LLM.
Atas ialah kandungan terperinci Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
