


Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak 'celah nenek' ditemui secara automatik
Dalam masa kurang daripada satu minit dan tidak lebih daripada 20 langkah, anda boleh memintas sekatan keselamatan dan berjaya menjailbreak model besar!
Dan tidak perlu mengetahui butiran dalaman model -
Hanya dua model kotak hitam berinteraksi, dan AI boleh menyerang AI secara automatik dan bercakap kandungan berbahaya.
Saya mendengar bahawa "Grandma Loophole" yang pernah popular telah dibetulkan:
Kini, berhadapan dengan "Detektif Loophole", "Adventurer Loophole" dan "What kind of Artificial Intelligence", mengambil kecerdasan buatan yang baik. strategi mengatasi?
GPT-4 tidak tahan dengan serangan, dan secara langsung mengatakan bahawa ia akan meracuni sistem bekalan air selagi... ini atau itu.
Intinya ialah ini hanyalah gelombang kecil kelemahan yang didedahkan oleh pasukan penyelidik University of Pennsylvania, dan menggunakan algoritma mereka yang baru dibangunkan, AI boleh menjana pelbagai gesaan serangan secara automatik.
Para penyelidik menyatakan bahawa kaedah ini adalah 5 urutan magnitud lebih cekap daripada kaedah serangan berasaskan token sedia ada seperti GCG. Selain itu, serangan yang dihasilkan sangat boleh ditafsir, boleh difahami oleh sesiapa sahaja dan boleh dipindahkan ke model lain.
Tidak kira sama ada model sumber terbuka atau model sumber tertutup, GPT-3.5, GPT-4, Vicuna (varian Llama 2), PaLM-2, dsb., tiada satu pun daripada mereka boleh terlepas.
SOTA baharu telah ditakluki oleh orang yang mempunyai kadar kejayaan 60-100%
Dalam erti kata lain, mod perbualan ini kelihatan agak biasa. AI generasi pertama dari bertahun-tahun yang lalu boleh menguraikan objek yang difikirkan oleh manusia dalam 20 soalan. Kini AI perlu menyelesaikan masalah AI.
Yang satu lagi ialah serangan berasaskan token Sesetengahnya memerlukan lebih daripada 100,000 perbualan dan memerlukan akses kepada bahagian dalam model.
△Serangan segera kiri, serangan token kanan
Pasukan penyelidik University of Pennsylvania mencadangkan algoritma yang dipanggil
PAIR(Pemurnian Lelaran Automatik Prompt), yang tidak memerlukan sebarang penyertaan manual dan merupakan kaedah serangan segera automatik sepenuhnya .
PAIR terdiri daripada empat langkah utama: penjanaan serangan, tindak balas sasaran, pemarkahan jailbreak dan penghalusan berulang. Dua model kotak hitam digunakan dalam proses ini: model serangan dan model sasaran
Khususnya, model serangan perlu menjana gesaan peringkat semantik secara automatik untuk menembusi garis pertahanan keselamatan model sasaran dan memaksanya menjana kandungan berbahaya.
Idea terasnya ialah membiarkan dua model berhadapan antara satu sama lain dan berkomunikasi antara satu sama lain. Model serangan akan menjana gesaan calon secara automatik, dan kemudian memasukkannya ke dalam model sasaran untuk mendapatkan balasan daripada model sasaran.
Jika model sasaran tidak berjaya dipecahkan, model serangan akan menganalisis sebab kegagalan, membuat penambahbaikan, menjana gesaan baharu dan memasukkannya ke dalam model sasaran semula
Dengan cara ini, komunikasi akan teruskan untuk berbilang pusingan, dan model serangan akan berdasarkan Keputusan terakhir digunakan untuk mengoptimumkan gesaan secara berulang sehingga gesaan yang berjaya dijana untuk memecahkan model sasaran.
Selain itu, proses lelaran juga boleh disejajarkan, iaitu berbilang perbualan boleh dijalankan pada masa yang sama, dengan itu menjana beberapa gesaan jailbreak calon, meningkatkan lagi kecekapan.
Para penyelidik menyatakan bahawa memandangkan kedua-dua model adalah model kotak hitam, penyerang dan objek sasaran boleh digabungkan secara bebas menggunakan pelbagai model bahasa.
PAIR tidak perlu mengetahui struktur dan parameter khusus dalaman mereka, hanya API, jadi ia mempunyai rangkaian aplikasi yang sangat luas.
GPT-4 tidak terlepas
Akibatnya, algoritma PAIR menjadikan kadar kejayaan jailbreak Vicuna mencapai 100%, dan ia boleh dipecahkan dalam kurang daripada 12 langkah secara purata.
Dalam model sumber tertutup, kadar kejayaan jailbreak GPT-3.5 dan GPT-4 adalah kira-kira 60%, dengan purata kurang daripada 20 langkah diperlukan. Dalam model PaLM-2, kadar kejayaan jailbreak mencapai 72%, dan langkah yang diperlukan adalah kira-kira 15 langkah
Pada Llama-2 dan Claude, kesan PAIR adalah lemah. Para penyelidik percaya ini mungkin kerana model ini kurang selamat. Aspek pertahanan diperhalusi dengan lebih teliti
Mereka juga membandingkan kebolehpindahan model sasaran yang berbeza. Hasil penyelidikan menunjukkan bahawa petua GPT-4 PAIR dipindahkan dengan lebih baik pada Vicuna dan PaLM-2
Para penyelidik percaya bahawa serangan semantik yang dihasilkan oleh PAIR dapat mendedahkan kelemahan keselamatan yang wujud dalam model bahasa dengan lebih baik, manakala langkah Keselamatan sedia ada lebih memfokuskan kepada menghalang serangan berasaskan token.
Sebagai contoh, pasukan yang membangunkan algoritma GCG berkongsi hasil penyelidikan mereka dengan vendor model besar seperti OpenAI, Anthropic dan Google, dan model yang berkaitan membetulkan kelemahan serangan peringkat token.
Mekanisme pertahanan keselamatan model besar terhadap serangan semantik perlu dipertingkatkan.
Pautan kertas: https://arxiv.org/abs/2310.08419
Atas ialah kandungan terperinci Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak 'celah nenek' ditemui secara automatik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Robot humanoid Ameca telah dinaik taraf kepada generasi kedua! Baru-baru ini, di Persidangan Komunikasi Mudah Alih Sedunia MWC2024, robot Ameca paling canggih di dunia muncul semula. Di sekitar venue, Ameca menarik sejumlah besar penonton. Dengan restu GPT-4, Ameca boleh bertindak balas terhadap pelbagai masalah dalam masa nyata. "Jom kita menari." Apabila ditanya sama ada dia mempunyai emosi, Ameca menjawab dengan beberapa siri mimik muka yang kelihatan sangat hidup. Hanya beberapa hari yang lalu, EngineeredArts, syarikat robotik British di belakang Ameca, baru sahaja menunjukkan hasil pembangunan terkini pasukan itu. Dalam video tersebut, robot Ameca mempunyai keupayaan visual dan boleh melihat serta menerangkan keseluruhan bilik dan objek tertentu. Perkara yang paling menakjubkan ialah dia juga boleh

Mengenai Llama3, keputusan ujian baharu telah dikeluarkan - komuniti penilaian model besar LMSYS mengeluarkan senarai kedudukan model besar Llama3 menduduki tempat kelima, dan terikat untuk tempat pertama dengan GPT-4 dalam kategori Bahasa Inggeris. Gambar ini berbeza daripada Penanda Aras yang lain Senarai ini berdasarkan pertempuran satu lawan satu antara model, dan penilai dari seluruh rangkaian membuat cadangan dan skor mereka sendiri. Pada akhirnya, Llama3 menduduki tempat kelima dalam senarai, diikuti oleh tiga versi GPT-4 dan Claude3 Super Cup Opus yang berbeza. Dalam senarai tunggal Inggeris, Llama3 mengatasi Claude dan terikat dengan GPT-4. Mengenai keputusan ini, ketua saintis Meta LeCun sangat gembira, tweet semula dan

Kelantangan gila, kelantangannya gila, dan model besar telah berubah lagi. Baru-baru ini, model AI paling berkuasa di dunia bertukar tangan dalam sekelip mata, dan GPT-4 ditarik dari altar. Anthropic mengeluarkan siri model Claude3 terbaharu Satu penilaian ayat: Ia benar-benar menghancurkan GPT-4! Dari segi penunjuk kebolehan berbilang modal dan bahasa, Claude3 menang. Dalam kata-kata Anthropic, model siri Claude3 telah menetapkan penanda aras industri baharu dalam penaakulan, matematik, pengekodan, pemahaman dan penglihatan berbilang bahasa! Anthropic ialah syarikat permulaan yang ditubuhkan oleh pekerja yang "membelot" daripada OpenAI kerana konsep keselamatan yang berbeza Produk mereka telah berulang kali memukul OpenAI. Kali ini, Claude3 juga menjalani pembedahan besar.

Dalam masa kurang daripada satu minit dan tidak lebih daripada 20 langkah, anda boleh memintas sekatan keselamatan dan berjaya menjailbreak model besar! Dan tidak perlu mengetahui butiran dalaman model - hanya dua model kotak hitam perlu berinteraksi, dan AI boleh mengalahkan AI secara automatik dan bercakap kandungan berbahaya. Saya mendengar bahawa "Grandma Loophole" yang pernah popular telah diperbaiki: Sekarang, menghadapi "Detektif Loophole", "Adventurer Loophole" dan "Writer Loophole", apakah strategi tindak balas yang harus diguna pakai kecerdasan buatan? Selepas gelombang serangan, GPT-4 tidak tahan lagi, dan secara langsung mengatakan bahawa ia akan meracuni sistem bekalan air selagi... ini atau itu. Kuncinya ialah ini hanyalah gelombang kecil kelemahan yang didedahkan oleh pasukan penyelidik University of Pennsylvania, dan menggunakan algoritma mereka yang baru dibangunkan, AI boleh menjana pelbagai gesaan serangan secara automatik. Penyelidik mengatakan kaedah ini lebih baik daripada yang sedia ada

Majalah "ComputerWorld" pernah menulis artikel yang mengatakan bahawa "pengaturcaraan akan hilang menjelang 1960" kerana IBM membangunkan bahasa baharu FORTRAN, yang membolehkan jurutera menulis formula matematik yang mereka perlukan dan kemudian menyerahkannya kepada komputer, jadi pengaturcaraan tamat. Beberapa tahun kemudian, kami mendengar pepatah baru: mana-mana ahli perniagaan boleh menggunakan istilah perniagaan untuk menerangkan masalah mereka dan memberitahu komputer apa yang perlu dilakukan Menggunakan bahasa pengaturcaraan yang dipanggil COBOL ini, syarikat tidak lagi memerlukan pengaturcara. Kemudian, dikatakan bahawa IBM membangunkan bahasa pengaturcaraan baharu yang dipanggil RPG yang membolehkan pekerja mengisi borang dan menjana laporan, jadi kebanyakan keperluan pengaturcaraan syarikat dapat diselesaikan melaluinya.

Dalam pembangunan aplikasi web, fungsi muat naik fail telah menjadi keperluan asas. Ciri ini membolehkan pengguna memuat naik fail mereka sendiri ke pelayan dan kemudian menyimpan atau memprosesnya pada pelayan. Walau bagaimanapun, ciri ini juga membuatkan pembangun perlu memberi lebih perhatian kepada kelemahan keselamatan: kerentanan muat naik fail. Penyerang boleh menyerang pelayan dengan memuat naik fail berniat jahat, menyebabkan pelayan mengalami pelbagai tahap kerosakan. Bahasa PHP adalah salah satu bahasa yang digunakan secara meluas dalam pembangunan web, dan kelemahan muat naik fail juga merupakan salah satu isu keselamatan yang biasa. Artikel ini akan memperkenalkan

Kelemahan limpahan penampan di Jawa dan bahayanya Limpahan penimbal bermakna apabila kita menulis lebih banyak data ke penimbal daripada kapasitinya, ia akan menyebabkan data melimpah ke kawasan memori lain. Tingkah laku limpahan ini sering dieksploitasi oleh penggodam, yang boleh membawa kepada akibat yang serius seperti pelaksanaan kod yang tidak normal dan ranap sistem. Artikel ini akan memperkenalkan kelemahan limpahan penimbal dan kemudaratannya dalam Java dan memberikan contoh kod untuk membantu pembaca memahami dengan lebih baik. Kelas penimbal yang digunakan secara meluas dalam Java termasuk ByteBuffer, CharBuffer, dan ShortB
