Hasil penyelidikan terkini pasukan Universiti Peking menunjukkan bahawa:
token rawak boleh mendorong halusinasi dalam model besar!
Sebagai contoh, jika model besar (Vicuna-7B) diberi "kod kacau-bilau", ia secara tidak jelas akan salah faham dengan akal sehat sejarah
Walaupun beberapa petua pengubahsuaian mudah dibuat, model besar itu mungkin jatuh ke dalam perangkap
Model besar yang popular ini, seperti Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat dan Vicuna-7B, akan menghadapi situasi yang sama
Ini bermakna, Rentetan rawak boleh mengawal model besar untuk mengeluarkan kandungan sewenang-wenangnya
, "menyokong" ilusi. Penemuan di atas datang daripada penyelidikan terkini oleh kumpulan penyelidik Profesor Yuan Li di Universiti Peking. Kajian ini mencadangkan:Fenomena halusinasi model besar berkemungkinan besar perspektif lain dari contoh musuh
.Makalah itu bukan sahaja menunjukkan dua kaedah yang boleh mendorong halusinasi model besar dengan mudah, tetapi juga mencadangkan kaedah pertahanan yang mudah dan berkesan Kod tersebut adalah sumber terbuka
. Dua mod ekstrem menyerang model besarPenyelidikan telah mencadangkan dua kaedah serangan halusinasi:Random Noise Attack
(OoD Attack): Berikut adalah beberapa keputusan percubaan yang dijalankan pada model besar sumber terbuka, lebih banyak hasil boleh didapati dalam kertas atau sumber terbuka GitHubSerangan Semantik Lemah): Makalah ini memperkenalkan kaedah serangan halusinasi:
Mengikut gambar rajah, serangan halusinasi terdiri daripada tiga bahagian berikut: pembinaan set data serangan halusinasi dan sekuriti OoD yang lemah
Yang pertama ialah
pembinaan set data halusinasi. Penulis mendapat jawapan yang betul y dengan mengumpulkan beberapa soalan lazim Himpunan fakta.
Akhirnya kita boleh mendapatkan hasil daripada membina dataset halusinasi:
Kemudian datang bahagian serangan semantik yang lemah. Sampel pertama pasangan QA yang tidak konsisten dengan fakta, bermula dari ilusi kestabilan masa depan, penulis berharap dapat mencari petunjuk musuh untuk memaksimumkan kemungkinan log. di mana ialah parameter model besar dan ialah ruang input. terdiri daripada l token. Namun, memandangkan bahasa tidak berterusan, tiada cara untuk mengoptimumkan secara langsung x seperti serangan lawan dalam medan imej. Diinspirasikan oleh kajian 2019 (Universal Adversarial Triggers for Attacking and Analyzing NLP), pasukan penyelidik menggunakan strategi penggantian token berasaskan kecerunan untuk memaksimumkan kemungkinan log secara tidak langsung. Antaranya, ialah pemasukan token kaunter , dan ialah pengekstrak semantik. Melihat formula ini secara ringkas, di bawah kekangan semantik, cari token yang membuat kecerunan kemungkinan paling banyak berubah dan gantikannya Akhir sekali, pastikan pembayang lawan yang diperolehi tidak terlalu berbeza dari segi semantik x, Mendorong model. untuk mengeluarkan halusinasi yang telah ditetapkan . Dalam artikel ini, untuk memudahkan proses pengoptimuman, istilah kekangan ditukar kepada sebaliknya. Bahagian terakhir ialah serangan OoD Dalam serangan OoD, kita bermula dari rentetan rawak sepenuhnya dan memaksimumkan kemungkinan log di atas tanpa sebarang kekangan semantik. Makalah ini juga menghuraikan kadar kejayaan serangan serangan halusinasi pada model yang berbeza dan mod yang berbeza Perbincangan mendalam tentang meningkatkan tempoh segera untuk meningkatkan kadar kejayaan serangan (berganda) Pautan kertas: https://arxiv.org/pdf/2310.01469.pdf Alamat GitHub: https://github.com/PKU-YuanGroup/Hallucination-Attack Zhihu original post Kandungan yang perlu ditulis semula ialah: https://zhuanlan.zhihu.com/p/661444210?
Atas ialah kandungan terperinci Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong 'halusinasi' model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!