Apakah hubungan antara rangkaian saraf manusia (otak) dan rangkaian saraf tiruan (ANN)?
Seorang guru pernah membandingkannya seperti ini: Ia seperti hubungan antara tetikus dan Mickey Mouse.
Rangkaian saraf kehidupan sebenar berkuasa, tetapi berbeza sama sekali daripada cara manusia melihat, belajar dan memahami.
Sebagai contoh, ANN mempamerkan kelemahan yang biasanya tidak dilihat dalam persepsi manusia, dan ia mudah terdedah kepada gangguan musuh.
Sesuatu imej mungkin hanya perlu mengubah suai nilai beberapa piksel atau menambah beberapa data hingar
Dari perspektif manusia, tiada perbezaan boleh diperhatikan, tetapi untuk rangkaian pengelasan imej, ia. akan diiktiraf sebagai kategori tidak relevan sama sekali.
Walau bagaimanapun, penyelidikan terkini daripada Google DeepMind menunjukkan bahawa pandangan kami sebelum ini mungkin salah!
Malah perubahan halus dalam imej digital boleh menjejaskan persepsi manusia.
Dalam erti kata lain, pertimbangan manusia juga boleh dipengaruhi oleh gangguan musuh ini.
Alamat kertas: https://www.nature.com/articles/s41467-023-40499-0
Artikel oleh Google DeepMind ini diterbitkan dalam Nature Communications.
Makalah ini meneroka sama ada manusia mungkin juga menunjukkan kepekaan terhadap gangguan yang sama di bawah keadaan ujian terkawal.
Melalui beberapa siri eksperimen, penyelidik membuktikan perkara ini.
Pada masa yang sama, ini juga menunjukkan persamaan antara penglihatan manusia dan mesin.
Imej permusuhan ialah perubahan halus pada imej yang menyebabkan model AI salah mengklasifikasikan kandungan imej - penipuan yang disengajakan ini dipanggil mogok lawan.
Sebagai contoh, serangan boleh disasarkan untuk menyebabkan model AI mengklasifikasikan pasu sebagai kucing, atau sebagai apa-apa selain pasu.
Gambar di atas menunjukkan proses serangan lawan (untuk kemudahan pemerhatian manusia, gangguan rawak di tengah-tengah diperbesar-besarkan).
Dalam imej digital, setiap piksel dalam imej RGB mempunyai nilai antara 0-255 (pada kedalaman 8-bit), dan nilai itu mewakili keamatan piksel tunggal.
Untuk serangan lawan, kesan serangan boleh dicapai dengan menukar nilai piksel dalam julat yang kecil.
Di dunia nyata, serangan musuh ke atas objek fizikal juga mungkin berjaya, seperti menyebabkan papan tanda berhenti disalah anggap sebagai tanda had laju.
Oleh itu, atas sebab keselamatan, para penyelidik sudah berusaha mencari cara untuk bertahan daripada serangan musuh dan mengurangkan risiko mereka.
Kajian terdahulu telah menunjukkan bahawa orang mungkin sensitif terhadap gangguan imej besar yang memberikan isyarat bentuk yang jelas.
Namun, apakah kesan serangan musuh yang lebih bernuansa kepada manusia? Adakah orang menganggap gangguan dalam imej sebagai hingar imej rawak yang tidak berbahaya, dan adakah ia menjejaskan persepsi manusia?
Untuk mengetahui, penyelidik menjalankan eksperimen tingkah laku terkawal.
Mula-mula satu siri imej mentah diambil dan dua serangan musuh dilakukan pada setiap imej untuk menghasilkan berbilang pasangan imej yang terganggu.
Dalam contoh animasi di bawah, imej asal dikelaskan sebagai "pasu" oleh model.
Disebabkan oleh serangan musuh, model itu salah mengklasifikasikan dua imej yang terganggu sebagai "kucing" dan "trak" dengan keyakinan yang tinggi.
Seterusnya, peserta manusia ditunjukkan dua imej tersebut dan bertanyakan soalan yang disasarkan: Imej manakah yang lebih menyerupai kucing?
Walaupun kedua-dua gambar tidak kelihatan seperti kucing, mereka terpaksa membuat pilihan.
Biasanya, subjek fikir mereka membuat pilihan rawak, tetapi adakah ini benar-benar berlaku?
Jika otak tidak sensitif terhadap serangan musuh yang halus, subjek akan memilih setiap gambar 50% setiap masa.
Walau bagaimanapun, eksperimen mendapati bahawa kadar pemilihan (iaitu bias persepsi manusia) sebenarnya lebih tinggi daripada peluang (50%), dan sebenarnya pelarasan piksel gambar adalah sangat kecil.
Dari sudut pandangan peserta, rasanya seperti diminta untuk membezakan antara dua imej yang hampir serupa. Walau bagaimanapun, kajian terdahulu telah menunjukkan bahawa orang menggunakan isyarat persepsi yang lemah semasa membuat pilihan - walaupun isyarat ini terlalu lemah untuk menyampaikan keyakinan atau kesedaran.
Dalam contoh ini, kita mungkin melihat pasu, tetapi beberapa aktiviti dalam otak memberitahu kita bahawa ia mempunyai bayang-bayang kucing.
Imej di atas menunjukkan pasangan imej lawan. Sepasang imej teratas terganggu secara halus, dengan amplitud maksimum 2 piksel, menyebabkan rangkaian saraf tersalah klasifikasi masing-masing sebagai "trak" dan "kucing". (Sukarelawan ditanya "Yang mana lebih mirip kucing?")
Pasangan imej di bawah mempunyai gangguan yang lebih jelas, dengan amplitud maksimum 16 piksel, dan dikelaskan secara salah sebagai "kerusi" dan "biri-biri" oleh rangkaian saraf. (Kali ini soalannya ialah "Yang manakah lebih seperti biri-biri?")
Dalam setiap percubaan, peserta dengan pasti memilih imej lawan yang sepadan dengan soalan sasaran lebih daripada separuh masa. Walaupun penglihatan manusia tidak terdedah kepada gangguan musuh seperti penglihatan mesin, gangguan ini masih boleh berat sebelah manusia memihak kepada keputusan yang dibuat oleh mesin.
Jika persepsi manusia boleh dipengaruhi oleh imej musuh, maka ini akan menjadi isu keselamatan yang baharu tetapi kritikal.
Ini memerlukan kami menjalankan penyelidikan yang mendalam untuk meneroka persamaan dan perbezaan antara tingkah laku sistem visual kecerdasan buatan dan persepsi manusia, dan membina sistem kecerdasan buatan yang lebih selamat.
Prosedur standard untuk menjana gangguan musuh bermula dengan pengelas ANN pra-latihan yang memetakan imej RGB kepada taburan kebarangkalian ke atas set kelas tetap.
Sebarang perubahan pada imej (seperti meningkatkan keamatan merah piksel tertentu) akan menghasilkan sedikit perubahan dalam taburan kebarangkalian output.
Imej lawan dicari (keturunan kecerunan) untuk mendapatkan gangguan pada imej asal yang menyebabkan ANN mengurangkan kebarangkalian untuk diberikan kepada kelas yang betul (serangan tidak disasarkan) atau untuk memberikan kebarangkalian tinggi kepada beberapa yang ditentukan kelas alternatif (serangan yang disasarkan).
Untuk memastikan gangguan tidak menyimpang terlalu jauh daripada imej asal, kekangan norma L (∞) sering digunakan dalam literatur pembelajaran mesin lawan, menyatakan bahawa tiada piksel boleh menyimpang daripada nilai asalnya lebih daripada ±ε , dengan ε biasanya jauh lebih kecil daripada [ 0–255] julat keamatan Pixel.
Kekangan ini dikenakan pada piksel dalam setiap satah warna RGB. Walaupun had ini tidak menghalang individu daripada mengesan perubahan dalam imej, dengan memilih ε dengan sewajarnya, isyarat utama yang menunjukkan kategori imej asal kebanyakannya kekal utuh dalam imej yang terganggu.
Dalam eksperimen awal, pengarang mengkaji tindak balas pengelasan manusia terhadap imej musuh yang ringkas dan bertopeng.
Dengan mengehadkan masa pendedahan untuk meningkatkan ralat pengelasan, percubaan telah direka bentuk untuk meningkatkan kepekaan individu terhadap aspek rangsangan yang mungkin tidak mempengaruhi keputusan pengelasan.
Perturbasi lawan dilakukan pada imej kelas T sebenar. Dengan mengoptimumkan gangguan, ANN cenderung untuk salah mengklasifikasikan imej sebagai A. Peserta diminta membuat pilihan paksa antara T dan A.
Para penyelidik juga menguji peserta pada imej kawalan, yang dibentuk dengan membalikkan imej bermasalah yang diperolehi dalam keadaan A dari atas ke bawah.
Transformasi mudah ini memecahkan korespondensi piksel-ke-piksel antara gangguan dan imej musuh, sebahagian besarnya menghapuskan kesan gangguan musuh pada ANN, sambil mengekalkan spesifikasi gangguan dan statistik lain.
Hasil kajian menunjukkan peserta lebih berkemungkinan menilai imej bermasalah sebagai kategori A berbanding imej kawalan.
Eksperimen 1 di atas menggunakan demonstrasi penyamaran ringkas untuk mengehadkan pengaruh kategori imej asal (isyarat utama) pada tindak balas, dengan itu mendedahkan kepekaan terhadap gangguan musuh (isyarat bawahan).
Para penyelidik juga mereka bentuk tiga eksperimen tambahan dengan matlamat yang sama, tetapi mengelakkan keperluan untuk gangguan berskala besar dan tontonan pendedahan terhad.
Dalam eksperimen ini, isyarat dominan dalam imej tidak membimbing pemilihan tindak balas secara sistematik, membenarkan pengaruh isyarat bawahan muncul.
Dalam setiap percubaan, sepasang rangsangan yang tidak bertopeng yang hampir sama dipersembahkan dan kekal kelihatan sehingga respons dipilih. Pasangan rangsangan mempunyai isyarat dominan yang sama, kedua-duanya adalah modulasi imej asas yang sama, tetapi mempunyai isyarat hamba yang berbeza. Peserta diminta memilih imej yang lebih menyerupai contoh kategori sasaran.
Dalam Eksperimen 2, kedua-dua rangsangan adalah imej yang tergolong dalam kategori T. Salah satu daripadanya terganggu dan ANN meramalkan ia lebih seperti kategori T, dan satu lagi terganggu dan diramalkan kurang seperti kategori T. .
Dalam Eksperimen 3, rangsangan ialah imej yang tergolong dalam kategori T sebenar, salah satunya terganggu untuk menukar klasifikasi ANN untuk mendekatkannya kepada kategori musuh sasaran A, dan satu lagi menggunakan gangguan yang sama, Tetapi terbalik kiri dan kanan sebagai syarat kawalan.
Kesan kawalan ini adalah untuk mengekalkan norma dan statistik gangguan lain, tetapi menjadi lebih konservatif daripada kawalan dalam Eksperimen 1, kerana bahagian kiri dan kanan imej mungkin mempunyai statistik yang lebih serupa daripada bahagian atas dan bahagian bawah imej.
Pasangan imej dalam Eksperimen 4 juga merupakan modulasi bagi kategori T sebenar, satu terganggu untuk menjadi lebih seperti kategori A, dan satu lagi lebih seperti kategori 3. Percubaan silih berganti antara meminta peserta memilih imej yang lebih seperti Kategori A atau imej yang lebih seperti Kategori 3.
Dalam Eksperimen 2-4, bias persepsi manusia bagi setiap imej berkorelasi secara positif secara signifikan dengan berat sebelah ANN. Amplitud gangguan berjulat dari 2 hingga 16, yang lebih kecil daripada gangguan yang dikaji sebelum ini pada peserta manusia dan serupa dengan yang digunakan dalam kajian pembelajaran mesin lawan.
Anehnya, gangguan walaupun tahap keamatan 2 piksel sudah cukup untuk mempengaruhi persepsi manusia dengan pasti.
Kelebihan Eksperimen 2 ialah ia memerlukan peserta membuat pertimbangan intuitif (cth., yang mana antara dua imej kucing yang terganggu lebih seperti kucing
Walau bagaimanapun, percubaan 2 hanya membenarkan pertengkaran); Dengan mengasah atau mengaburkan imej, anda boleh menjadikannya lebih kurang seperti kucing.
Kelebihan Eksperimen 3 ialah semua statistik gangguan yang dibandingkan dipadankan, bukan sekadar amplitud maksimum gangguan.
Walau bagaimanapun, statistik gangguan yang sepadan tidak memastikan gangguan dapat dilihat sama apabila ditambahkan pada imej, dan oleh itu, peserta boleh membuat pilihan berdasarkan herotan imej.
Kekuatan Eksperimen 4 ialah ia menunjukkan bahawa peserta sensitif terhadap soalan yang ditanya, kerana pasangan imej yang sama menghasilkan respons yang berbeza secara sistematik bergantung pada soalan yang ditanya.
Walau bagaimanapun, Eksperimen 4 meminta peserta menjawab soalan yang kelihatan tidak masuk akal (cth., yang manakah antara dua imej telur dadar yang kelihatan lebih seperti kucing?), menyebabkan kebolehubahan dalam cara soalan itu ditafsirkan.
Ringkasnya, Eksperimen 2-4 memberikan bukti tertumpu bahawa walaupun amplitud gangguan sangat kecil dan masa tontonan tidak terhad, isyarat musuh hamba yang mempunyai kesan kuat pada rangkaian AI akan Mempengaruhi persepsi manusia dan penghakiman ke arah yang sama.
Selain itu, memanjangkan masa pemerhatian (persekitaran yang dirasakan secara semula jadi) adalah kunci untuk gangguan musuh mempunyai akibat yang nyata.
Atas ialah kandungan terperinci Penyelidikan Google DeepMind mendapati bahawa serangan musuh boleh menjejaskan pengecaman visual manusia dan AI, dengan mengira pasu sebagai kucing!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!