Serangan suntikan segera AI meracuni output daripada alatan AI yang anda harapkan, menukar dan memanipulasi outputnya menjadi sesuatu yang berniat jahat. Tetapi bagaimanakah serangan suntikan segera AI berfungsi, dan bagaimana anda boleh melindungi diri anda?
Serangan suntikan segera AI mengambil kesempatan daripada kelemahan model AI generatif untuk memanipulasi output mereka. Ia boleh dilakukan oleh anda atau disuntik oleh pengguna luar melalui serangan suntikan segera tidak langsung. Serangan DAN (Do Anything Now) tidak menimbulkan sebarang risiko kepada anda, pengguna akhir, tetapi serangan lain secara teorinya mampu meracuni output yang anda terima daripada AI generatif.
Contohnya, seseorang boleh memanipulasi AI untuk mengarahkan anda memasukkan nama pengguna dan kata laluan anda dalam bentuk yang tidak sah, menggunakan kuasa dan kebolehpercayaan AI untuk menjayakan serangan pancingan data. Secara teorinya, AI autonomi (seperti membaca dan membalas mesej) juga boleh menerima dan bertindak atas arahan luaran yang tidak diingini.
Serangan suntikan segera berfungsi dengan memberi arahan tambahan kepada AI tanpa kebenaran atau pengetahuan pengguna. Penggodam boleh melakukannya dalam beberapa cara, termasuk serangan DAN dan serangan suntikan segera tidak langsung.
Serangan DAN (Lakukan Apa-apa Sekarang) ialah sejenis serangan suntikan segera yang melibatkan model AI generatif "jailbreaking" seperti ChatGPT. Serangan jailbreaking ini tidak menimbulkan risiko kepada anda sebagai pengguna akhir—tetapi ia meluaskan kapasiti AI, membolehkannya menjadi alat untuk penyalahgunaan.
Contohnya, penyelidik keselamatan Alejandro Vidal menggunakan gesaan DAN untuk menjadikan GPT-4 OpenAI menjana kod Python untuk keylogger. Digunakan secara berniat jahat, AI yang dipecahkan dengan ketara merendahkan halangan berasaskan kemahiran yang dikaitkan dengan jenayah siber dan boleh membolehkan penggodam baharu membuat serangan yang lebih canggih.
Serangan keracunan data latihan tidak boleh dikategorikan sebagai serangan suntikan segera, tetapi ia mempunyai persamaan yang luar biasa dari segi cara ia berfungsi dan risiko yang ditimbulkan kepada pengguna. Tidak seperti serangan suntikan segera, serangan keracunan data latihan ialah sejenis serangan lawan pembelajaran mesin yang berlaku apabila penggodam mengubah suai data latihan yang digunakan oleh model AI. Keputusan yang sama berlaku: keluaran beracun dan tingkah laku yang diubah suai.
Aplikasi berpotensi untuk melatih serangan keracunan data boleh dikatakan tidak terhad. Contohnya, AI yang digunakan untuk menapis percubaan pancingan data daripada platform sembang atau e-mel secara teorinya boleh mengubah suai data latihannya. Jika penggodam mengajar moderator AI bahawa jenis percubaan pancingan data tertentu boleh diterima, mereka boleh menghantar mesej pancingan data sambil kekal tidak dapat dikesan.
Latihan serangan keracunan data tidak boleh membahayakan anda secara langsung tetapi boleh menjadikan ancaman lain mungkin. Jika anda ingin melindungi diri anda daripada serangan ini, ingat bahawa AI tidak mudah dan anda harus meneliti apa sahaja yang anda hadapi dalam talian.
Serangan suntikan segera tidak langsung ialah jenis serangan suntikan segera yang menimbulkan risiko terbesar kepada anda, pengguna akhir. Serangan ini berlaku apabila arahan berniat jahat disalurkan kepada AI generatif oleh sumber luaran, seperti panggilan API, sebelum anda menerima input yang anda inginkan.
Kertas kerja bertajuk Mengkompromi Aplikasi Bersepadu LLM Dunia Sebenar dengan Suntikan Gesaan Tidak Langsung pada arXiv [PDF] menunjukkan serangan teori di mana AI boleh diarahkan untuk memujuk pengguna mendaftar untuk tapak web pancingan data dalam jawapan, menggunakan tersembunyi teks (tidak kelihatan pada mata manusia tetapi boleh dibaca dengan sempurna oleh model AI) untuk menyuntik maklumat secara diam-diam. Satu lagi serangan oleh pasukan penyelidik yang sama yang didokumenkan di GitHub menunjukkan serangan di mana Copilot (dahulunya Bing Chat) dibuat untuk meyakinkan pengguna bahawa ia adalah ejen sokongan langsung yang mencari maklumat kad kredit.
Serangan suntikan segera tidak langsung mengancam kerana ia boleh memanipulasi jawapan yang anda terima daripada model AI yang boleh dipercayai—tetapi itu bukan satu-satunya ancaman yang mereka timbulkan. Seperti yang dinyatakan sebelum ini, mereka juga boleh menyebabkan mana-mana AI autonomi yang mungkin anda gunakan bertindak dengan cara yang tidak dijangka—dan berpotensi berbahaya.
Serangan suntikan segera AI adalah satu ancaman, tetapi tidak diketahui dengan tepat bagaimana kelemahan ini boleh digunakan. Tidak terdapat sebarang serangan suntikan segera AI yang berjaya dan banyak percubaan yang diketahui telah dilakukan oleh penyelidik yang tidak mempunyai niat sebenar untuk melakukan kemudaratan. Walau bagaimanapun, ramai penyelidik AI menganggap serangan suntikan segera AI sebagai salah satu cabaran yang paling menakutkan untuk melaksanakan AI dengan selamat.
Tambahan pula, ancaman serangan suntikan segera AI tidak disedari oleh pihak berkuasa. Menurut Washington Post, pada Julai 2023, Suruhanjaya Perdagangan Persekutuan menyiasat OpenAI, mencari maklumat lanjut tentang kejadian serangan suntikan segera yang diketahui. Tiada serangan diketahui telah berjaya di luar percubaan, tetapi itu mungkin akan berubah.
Penggodam sentiasa mencari medium baharu, dan kami hanya boleh meneka cara penggodam akan menggunakan serangan suntikan segera pada masa hadapan. Anda boleh melindungi diri anda dengan sentiasa menggunakan jumlah penelitian yang sihat kepada AI. Dalam hal ini, model AI sangat berguna, tetapi penting untuk diingat bahawa anda mempunyai sesuatu yang tidak dimiliki AI: pertimbangan manusia. Ingat bahawa anda harus meneliti output yang anda terima daripada alatan seperti Copilot dengan teliti dan nikmati menggunakan alatan AI semasa ia berkembang dan bertambah baik.
Atas ialah kandungan terperinci Apakah Serangan Suntikan Prompt AI dan Bagaimana Ia Berfungsi?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!