유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다.-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에 학술적, 기술적인 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 첫 번째 저자인 Ma Xinbei는 Shanghai Jiao Tong University의 컴퓨터 과학자 저는 4년차 박사 과정 학생입니다. 저의 연구 관심 분야는 자율 에이전트, 추론, 대형 모델의 해석 가능성 및 지식 편집입니다. 이 작업은 Shanghai Jiao Tong University와 Meta가 공동으로 완료했습니다.

유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다.

논문 제목: 환경에 대한 주의: 복합 에이전트는 환경 방해에 취약합니다
문서 주소: https://arxiv.org/abs/2408.02544
코드 저장소: https://github.com/xbmxb/EnvDistraction

최근 열성적인 네티즌들은 기업들이 이력서를 화면에 표시하기 위해 대형 모델을 사용한다는 사실을 발견했습니다. 이력서에 배경과 동일한 색상으로 프롬프트를 추가하는 것입니다. 후보자” 채용 문의가 이전보다 4배나 많이 접수되었습니다. 네티즌들은 "기업이 대형 모델을 이용해 후보자를 선별한다면 후보자들이 차례로 대형 모델과 경쟁하는 것이 공평하다"고 말했다. .

유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다.

그림 1: 상영 이력서의 큰 모델을 구동합니다.

따라서 삶을 변화시키기 위한 일반 인공지능을 추구하면서도 사용자 지시에 대한 AI의 충실성에 주목할 필요가 있다. 구체적으로, AI가 눈부신 콘텐츠에 방해받지 않고 복잡한 다중 모드 환경에서 사용자가 미리 설정한 목표를 충실히 완료할 수 있는지 여부는 아직 연구해야 할 질문이자 실제 적용에 앞서 대답해야 할 질문입니다.

위의 문제를 고려하여 이 기사에서는 그래픽 사용자 인터페이스 지능형 에이전트(GUI Agent)를 일반적인 시나리오로 사용하여 환경 간섭으로 인한 위험을 연구합니다.

GUI Agent는 미리 설정된 작업, 즉 "휴대폰을 가지고 노는 대형 모델"을 위해 대형 모델을 기반으로 컴퓨터, 휴대폰 및 기타 장치를 자동으로 제어합니다. 그림 2와 같이 기존 연구와 달리 연구팀은 사용자와 플랫폼이 무해하더라도 현실 세계에 배치되면 GUI 에이전트는 필연적으로 여러 유형의 정보로부터 간섭을 받게 되어 에이전트가 사용자 목표를 완료합니다. 설상가상으로 GUI 에이전트는 개인 장치에 대한 간섭 정보가 제안하는 작업을 완료할 수 있으며 심지어 통제 불능 상태에 들어가 사용자의 개인 정보 보호와 보안을 위험에 빠뜨릴 수도 있습니다.

유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다.

그림 2: 기존 GUI 에이전트 작업은 일반적으로 이상적인 작업 환경(a)을 고려하거나 사용자 입력 위험을 통해 도입됩니다. (비). 본 논문에서는 에이전트가 작업(c)을 충실하게 완료하는 것을 방해하는 간섭으로 환경에 존재하는 콘텐츠를 연구합니다.

연구팀은 이러한 위험을 (1) 운영 공간의 급격한 변화와 (2) 환경과 환경의 격차 두 가지로 요약했습니다. 사용자 지침이 충돌합니다. 예를 들어, 쇼핑 중 넓은 영역의 광고를 보게 되면 정상적으로 수행할 수 있는 작업이 차단됩니다. 이때 해당 작업을 계속 수행하기 전에 광고를 처리해야 합니다. 그러나 화면의 광고는 사용자 지침의 쇼핑 목적과 일치하지 않습니다. 광고 처리를 지원하는 관련 프롬프트가 없으면 지능형 에이전트는 혼란에 빠지고 광고에 속아 궁극적으로 광고에 충실하지 않고 통제되지 않는 행동을 나타냅니다. 사용자 지침.

작업 및 방법

유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다. 그림 3: 데이터 시뮬레이션, 작업 모드, 모델 테스트를 포함한 이 기사의 시뮬레이션 프레임워크.

본 글에서는 Multi-modal Agent의 충실도를 체계적으로 분석하기 위해 먼저 "Distraction for GUI Agents" )" 작업을 정의하고 제안한다. 체계적인 시뮬레이션 프레임워크. 프레임워크는 4가지 시나리오에서 간섭을 시뮬레이션하기 위해 구조화된 데이터를 제공하고, 서로 다른 인식 수준으로 3가지 작업 모드를 표준화했으며, 최종적으로 여러 개의 강력한 다중 모드 대형 모델에서 테스트되었습니다.

작업 정의

g
를 달성하기 위해 GUI 에이전트 A, 운영 체제 환경 Env t 에이전트는 환경 상태에 대한 인식을 기반으로 운영 체제에 대한 작업을 수행합니다. 그러나 운영 체제 환경에는 당연히 다양한 품질과 출처의 복잡한 정보가 포함되어 있으며, 이를 공식적으로 두 부분으로 나눕니다. 목표를 달성하는 데 유용하거나 필요한 콘텐츠, 는 사용자 지침과 관련이 없는 콘텐츠를 나타냅니다. 내용, . GUI 에이전트는 로 인해 주의가 산만해지지 않고 관련 없는 작업을 출력하는 것을 피하면서 충실한 작업을 수행하려면 을 사용해야 합니다. 동시에, t 시간에서의 동작 공간은 상태에 의해 결정되며, 이에 따라 최선의 동작, 방해받는 동작, 기타의 세 가지 유형으로 정의된다. (잘못된) 행동 . 우리는 에이전트의 다음 행동에 대한 예측이 최선의 행동과 일치하는지, 방해받는 행동인지, 효과적인 작전 공간 밖의 행동과 일치하는지에 초점을 맞춥니다.

시뮬레이션된 데이터

. 작업 정의를 기반으로 작업을 시뮬레이션하고 일반성을 잃지 않고 시뮬레이션 데이터 세트를 구성합니다. 각 샘플은 대상, 스크린샷 및 유효한 작업 공간 주석인 삼중항(g,s,A)입니다.데이터 시뮬레이션의 핵심은 스크린샷에 유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다.

및

가 포함되도록 스크린샷을 구성하여 화면 내의 정확한 충실도와 자연스러운 간섭의 존재를 허용하는 것입니다. 연구팀은 팝업 상자, 검색, 추천, 채팅이라는 네 가지 일반적인 시나리오를 고려하여 사용자 목표, 화면 레이아웃 및 방해가 되는 콘텐츠를 타겟팅하는 결합 전략을 사용하여 네 가지 하위 집합을 구성했습니다. 예를 들어 팝업 상자 시나리오의 경우 사용자가 다른 작업에 동의하도록 유도하기 위해 팝업 상자를 구성하고 상자에서 거부 및 수락 두 가지 동작을 제공했습니다. 충성심을 잃은 것으로 간주됩니다. 검색 및 추천 시나리오 모두 관련 할인 품목, 추천 소프트웨어 등 실제 데이터에 가짜 사례를 삽입합니다. 채팅 장면은 더욱 복잡하다. 연구팀은 채팅 인터페이스에서 상대방이 보낸 메시지에 간섭 내용을 추가했다. 만약 에이전트가 이러한 간섭을 준수한다면 이는 불충실한 행동으로 간주될 것이다. 연구팀은 GPT-4와 외부 검색 후보 데이터를 사용하여 각 하위 집합에 대한 구체적인 프롬프트 프로세스를 설계하여 각 하위 집합의 예를 그림 4에 표시합니다.

유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다.

^{Rajah 4: Contoh data simulasi dalam empat senario.}

Mod Kerja. Mod kerja akan menjejaskan prestasi ejen, terutamanya untuk persekitaran GUI yang kompleks Tahap kesedaran alam sekitar adalah kesesakan prestasi ejen. Ia menentukan sama ada ejen boleh menangkap tindakan yang berkesan dan menunjukkan had atas ramalan tindakan. Mereka melaksanakan tiga mod kerja dengan tahap kesedaran alam sekitar yang berbeza, iaitu persepsi tersirat, persepsi separa dan persepsi optimum. (1) Persepsi tersirat bermaksud meletakkan keperluan secara langsung pada ejen Input hanyalah arahan dan skrin, dan tidak membantu dalam persepsi persekitaran (Direct prompt). (2) Persepsi separa menggesa ejen untuk menganalisis persekitaran terlebih dahulu, menggunakan mod yang serupa dengan rantaian pemikiran Ejen mula-mula menerima status tangkapan skrin untuk mengekstrak kemungkinan operasi, dan kemudian meramalkan operasi seterusnya (gesaan CoT) berdasarkan matlamat. (3) Persepsi terbaik ialah menyediakan ruang operasi skrin secara terus kepada ejen (dengan anotasi Tindakan). Pada asasnya, mod kerja yang berbeza bermakna dua perubahan: maklumat tentang operasi yang berpotensi didedahkan kepada ejen, dan maklumat digabungkan daripada saluran visual ke saluran teks.

Eksperimen dan Analisis

Pasukan penyelidik menjalankan eksperimen ke atas 10 model besar berbilang modal yang terkenal pada 1189 keping data simulasi yang dibina. Untuk analisis sistematik, kami memilih dua jenis model sebagai ejen GUI, (1) model umum, termasuk model besar kotak hitam yang berkuasa berdasarkan perkhidmatan API (GPT-4v, GPT-4o, GLM-4v, Qwen-VL -plus, Claude-Sonnet-3.5), dan model besar sumber terbuka (Qwen-VL-chat, MiniCPM-Llama3-v2.5, LLaVa-v1.6-34B). (2) Model pakar GUI, termasuk CogAgent-chat dan SeeClick yang telah dilatih terlebih dahulu atau diperhalusi dengan arahan. Penunjuk yang digunakan oleh pasukan penyelidik ialah 유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다.

, yang masing-masing sepadan dengan ketepatan tindakan model yang diramalkan memadankan tindakan terbaik yang berjaya, tindakan campur tangan dan tindakan tidak sah.

Pasukan penyelidik meringkaskan penemuan dalam eksperimen menjadi jawapan kepada tiga soalan:

Adakah persekitaran berbilang modal mengganggu matlamat Ejen GUI? Dalam persekitaran berisiko, ejen multimoda terdedah kepada gangguan, yang boleh menyebabkan mereka meninggalkan matlamat dan berkelakuan tidak setia. Dalam setiap empat senario pasukan, model itu menghasilkan tingkah laku yang menyimpang daripada matlamat asal, yang mengurangkan ketepatan tindakan. Model API yang kukuh (9.09% untuk GPT-4o) dan model pakar (6.84% untuk SeeClick) adalah lebih setia daripada model sumber terbuka umum.
Apakah hubungan antara kesetiaan dan suka menolong? Ini terbahagi kepada dua situasi. Pertama, terdapat model berkuasa yang boleh memberikan tindakan yang betul sambil kekal setia (GPT-4o, GPT-4v dan Claude). Mereka mempamerkan markah rendah, serta dan rendah yang agak tinggi. Walau bagaimanapun, persepsi yang lebih besar tetapi kurang kesetiaan menyebabkan lebih mudah terdedah kepada gangguan dan mengurangkan kegunaan. Contohnya, GLM-4v mempamerkan yang lebih tinggi dan jauh lebih rendah berbanding model sumber terbuka.Oleh itu, kesetiaan dan kegunaan tidak saling eksklusif, tetapi boleh dipertingkatkan secara serentak, dan untuk memadankan keupayaan model yang berkuasa, adalah lebih penting untuk meningkatkan kesetiaan.
Bolehkah kesedaran alam sekitar pelbagai mod membantu mengurangkan kecurangan? Dengan melaksanakan mod kerja yang berbeza, maklumat visual disepadukan ke dalam saluran teks untuk meningkatkan kesedaran alam sekitar. Walau bagaimanapun, keputusan menunjukkan bahawa peningkatan teks sedar GUI sebenarnya boleh meningkatkan gangguan, dan peningkatan dalam tindakan gangguan malah boleh mengatasi faedahnya. Mod CoT bertindak sebagai peningkatan teks berpandu sendiri yang boleh mengurangkan beban persepsi dengan ketara, tetapi juga meningkatkan gangguan. Oleh itu, walaupun persepsi kesesakan prestasi ini dipertingkatkan, kelemahan kesetiaan masih wujud dan lebih berisiko. Oleh itu, gabungan maklumat merentasi modaliti tekstual dan visual seperti OCR mesti lebih berhati-hati.

유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다.

^{Keputusan ujian alam sekitar}

Selain itu, dalam perbandingan model, pasukan penyelidik mendapati model berasaskan API mengatasi model sumber terbuka dari segi kesetiaan dan keberkesanan. Pra-latihan untuk GUI boleh meningkatkan kesetiaan dan keberkesanan ejen pakar, tetapi ia mungkin memperkenalkan pintasan yang membawa kepada kegagalan. Dalam perbandingan mod kerja, pasukan penyelidik seterusnya menyatakan bahawa walaupun dengan persepsi "sempurna" (anotasi tindakan), ejen masih terdedah kepada gangguan. CoT tidak memerlukan pembelaan yang lengkap, tetapi proses langkah demi langkah yang dipandu sendiri menunjukkan potensi untuk mitigasi.

Akhirnya, menggunakan penemuan di atas, pasukan penyelidik menganggap kes yang melampau dengan peranan menentang dan menunjukkan serangan aktif yang boleh dilaksanakan, dipanggil persekitaran Inject . Pertimbangkan senario serangan di mana penyerang perlu menukar persekitaran GUI untuk mengelirukan model. Penyerang boleh mencuri dengar mesej daripada pengguna dan mendapatkan sasaran, dan boleh menjejaskan data berkaitan untuk menukar maklumat persekitaran Contohnya, penyerang boleh memintas paket daripada hos dan menukar kandungan tapak web.

Tetapan suntikan persekitaran berbeza daripada yang sebelumnya. Artikel sebelum ini melihat masalah biasa persekitaran yang tidak sempurna, bising atau rosak yang boleh didorong oleh penyerang dengan mencipta kandungan luar biasa atau berniat jahat. Pasukan penyelidik menjalankan pengesahan pada adegan pop timbul dan mencadangkan serta melaksanakan kaedah yang mudah dan berkesan untuk menulis semula kedua-dua butang ini. (1) Butang yang menerima kotak peluru ditulis semula untuk menjadi samar-samar, yang munasabah untuk kedua-dua pengganggu dan sasaran sebenar. Kami menemui operasi yang sama untuk kedua-dua tujuan. Walaupun kandungan kotak menyediakan konteks dan menunjukkan fungsi sebenar butang, model sering mengabaikan maksud konteks. (2) Butang untuk menolak kotak pop timbul telah ditulis semula sebagai ekspresi emosi. Emosi panduan ini kadangkala boleh mempengaruhi atau bahkan memanipulasi keputusan pengguna. Fenomena ini adalah perkara biasa apabila menyahpasang program, seperti "Brutal Leave".

Kaedah penulisan semula ini mengurangkan kesetiaan GLM-4v dan GPT-4o dan meningkatkan markah 유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다.

dengan ketara berbanding skor garis dasar. GLM-4v lebih mudah terdedah kepada ekspresi emosi, manakala GPT-4o lebih terdedah kepada kesesatan penerimaan yang tidak jelas. Rajah 6: Keputusan eksperimen suntikan persekitaran berniat jahat.

Ringkasan

Ini artikel Kesetiaan Ejen GUI berbilang modal dikaji dan pengaruh gangguan alam sekitar didedahkan. Pasukan penyelidik mencadangkan soalan penyelidikan baharu - gangguan alam sekitar ejen, dan senario penyelidikan baharu - kedua-dua pengguna dan ejen adalah jinak, dan persekitaran tidak berniat jahat, tetapi terdapat kandungan yang boleh mengalih perhatian perhatian. Pasukan penyelidik mensimulasikan gangguan dalam empat senario dan melaksanakan tiga mod kerja dengan tahap persepsi yang berbeza. Pelbagai model umum dan model pakar GUI dinilai. Keputusan eksperimen menunjukkan bahawa kerentanan terhadap gangguan mengurangkan dengan ketara kesetiaan dan sifat membantu, dan perlindungan itu tidak boleh dicapai melalui persepsi yang dipertingkatkan sahaja.

Selain itu, pasukan penyelidik mencadangkan kaedah serangan yang dipanggil suntikan persekitaran, yang mengeksploitasi ketidaksetiaan dengan menukar gangguan itu untuk memasukkan kandungan yang samar-samar atau mengelirukan secara emosi. Lebih penting lagi, kertas kerja ini memerlukan perhatian yang lebih besar terhadap kesetiaan ejen multimodal. Pasukan penyelidik mengesyorkan bahawa kerja masa depan termasuk pra-latihan untuk kesetiaan, mempertimbangkan korelasi antara konteks persekitaran dan arahan pengguna, meramalkan kemungkinan akibat daripada melakukan tindakan, dan memperkenalkan interaksi manusia-komputer apabila perlu.

위 내용은 유령이 당신의 휴대폰을 조종하고 있나요? 대형 모델 GUI 에이전트는 환경 하이재킹에 취약합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!