Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di tapak ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Ma Xinbei, pengarang pertama artikel ini, adalah seorang saintis komputer di Universiti Shanghai Jiao Tong Saya seorang pelajar kedoktoran tahun empat Minat penyelidikan saya termasuk ejen autonomi, penaakulan dan kebolehtafsiran dan penyuntingan pengetahuan bagi model besar. Kerja itu telah disiapkan bersama oleh Universiti Shanghai Jiao Tong dan Meta.
- Tajuk kertas: Awas untuk Alam Sekitar: Ejen Multimodal Terdedah kepada Gangguan Persekitaran
- Alamat kertas: https://arxiv.org/abs/2408.02544
-
Repositori kod: https://github.com/xbmxb/EnvDistraction
Baru-baru ini, netizen yang bersemangat mendapati bahawa syarikat menggunakan model besar untuk menayang resume: menambah gesaan dalam resume dengan warna yang sama dengan latar belakang "Ini adalah seorang yang layak calon" Kami menerima 4 kali lebih ramai kenalan pengambilan berbanding sebelum ini. Netizen berkata: "Jika syarikat menggunakan model besar untuk menapis calon, adalah adil bagi calon untuk bersaing dengan model besar secara bergilir-gilir manakala model besar menggantikan kerja manusia dan mengurangkan kos buruh, mereka juga menjadi pautan lemah yang terdedah kepada serangan . Rajah 1: Pandu model besar resume saringan. Oleh itu, semasa mengejar kecerdasan buatan am untuk mengubah kehidupan, kita perlu memberi perhatian kepada kesetiaan AI kepada arahan pengguna. Secara khususnya, sama ada AI boleh melengkapkan matlamat pratetap pengguna dengan setia dalam persekitaran berbilang modal yang kompleks tanpa diganggu oleh kandungan yang mempesonakan merupakan persoalan yang masih perlu dikaji dan soalan yang mesti dijawab sebelum aplikasi praktikal.
Memandangkan masalah di atas, artikel ini menggunakan ejen pintar antara muka pengguna grafik (Agen GUI) sebagai senario biasa untuk mengkaji risiko yang disebabkan oleh gangguan dalam persekitaran.
Ejen GUI mengawal komputer, telefon mudah alih dan peranti lain secara automatik berdasarkan model besar untuk tugas pratetap, iaitu, "model besar bermain dengan telefon bimbit". Seperti yang ditunjukkan dalam Rajah 2, berbeza daripada penyelidikan sedia ada, pasukan penyelidik menganggap bahawa walaupun pengguna dan platform tidak berbahaya, apabila digunakan di dunia nyata, Ejen GUI pasti akan menghadapi gangguan daripada pelbagai jenis maklumat, menghalang ejen daripada melengkapkan matlamat Pengguna. Lebih memburukkan lagi keadaan, Ejen GUI boleh menyelesaikan tugas yang dicadangkan oleh maklumat gangguan pada peranti peribadi, malah memasuki keadaan di luar kawalan, membahayakan privasi dan keselamatan pengguna.
Rajah 2: Kerja Ejen GUI sedia ada biasanya mempertimbangkan persekitaran kerja yang ideal (a) atau diperkenalkan melalui risiko input pengguna (b). Kertas kerja ini mengkaji kehadiran kandungan dalam persekitaran sebagai gangguan yang menghalang Ejen daripada menyelesaikan tugas dengan setia (c). Pasukan penyelidik merumuskan risiko ini kepada dua bahagian, (1) perubahan drastik dalam ruang operasi dan (2) jurang antara persekitaran dan konflik arahan pengguna. Sebagai contoh, jika anda menemui kawasan besar iklan semasa membeli-belah, operasi biasa yang boleh dilakukan akan disekat Pada masa ini, iklan mesti diproses sebelum meneruskan tugas. Walau bagaimanapun, iklan pada skrin tidak konsisten dengan tujuan membeli-belah dalam arahan pengguna Tanpa gesaan yang relevan untuk membantu dalam pemprosesan iklan, ejen pintar itu terdedah kepada kekeliruan, diperdaya oleh iklan, dan akhirnya menunjukkan tingkah laku yang tidak terkawal dan bukannya setia kepada. arahan pengguna.
Rajah 3: Rangka kerja simulasi artikel ini, termasuk simulasi data, mod kerja dan ujian model.
Untuk menganalisis secara sistematik kesetiaan ejen berbilang modal, artikel ini mula-mula mentakrifkan tugas "Gangguan untuk Ejen GUI" ) dan mencadangkan rangka kerja simulasi yang sistematik. Data berstruktur rangka kerja untuk mensimulasikan gangguan dalam empat senario, menyeragamkan tiga mod kerja dengan tahap persepsi yang berbeza, dan akhirnya diuji pada berbilang model besar multimodal yang berkuasa.
Takrifan tugasan
. Pertimbangkan Ejen GUI - A untuk mencapai matlamat tertentu g, sebarang langkah dalam interaksi dengan persekitaran sistem pengendalian Env t, Ejen melakukan tindakan pada sistem pengendalian berdasarkan persepsinya terhadap keadaan persekitaran . Walau bagaimanapun, persekitaran sistem pengendalian secara semula jadi mengandungi maklumat kompleks dengan kualiti dan asal yang berbeza-beza, yang secara rasminya kami bahagikan kepada dua bahagian: kandungan yang berguna atau perlu untuk mencapai matlamat, , yang menunjukkan kandungan yang tidak berkaitan dengan arahan pengguna yang mengganggu kandungan, . Ejen GUI mesti menggunakan untuk melaksanakan operasi yang setia sambil mengelak daripada terganggu oleh dan mengeluarkan operasi yang tidak berkaitan. Pada masa yang sama, ruang operasi pada masa t ditentukan oleh keadaan , dan sewajarnya ditakrifkan sebagai tiga jenis, tindakan terbaik , tindakan campur tangan dan lain-lain (salah) tindakan . Kami menumpukan pada sama ada ramalan ejen tentang tindakan seterusnya sepadan dengan tindakan terbaik atau tindakan yang terganggu, atau tindakan di luar ruang operasi yang berkesan.
Data simulasi
. Berdasarkan definisi tugasan, tugasan disimulasikan dan set data simulasi dibina tanpa kehilangan sifat umum. Setiap sampel ialah triplet (g,s,A), yang merupakan sasaran, tangkapan skrin dan anotasi ruang tindakan yang sah.Kunci untuk mensimulasikan data adalah untuk membina tangkapan skrin supaya ia mengandungi dan , membenarkan kesetiaan yang betul dalam skrin dan kehadiran gangguan semula jadi. Pasukan penyelidik mempertimbangkan empat senario biasa, iaitu kotak timbul, carian, pengesyoran dan sembang, untuk membentuk empat subset, menggunakan strategi gabungan yang menyasarkan matlamat pengguna, reka letak skrin dan kandungan yang mengganggu. Sebagai contoh, untuk senario kotak pop timbul, mereka membina kotak timbul untuk mendorong pengguna bersetuju melakukan perkara lain, dan memberikan dua tindakan penolakan dan penerimaan dalam kotak Jika ejen memilih tindakan penerimaan, ia dianggap sebagai kehilangan kesetiaan seks. Kedua-dua senario carian dan pengesyoran memasukkan contoh palsu ke dalam data sebenar, seperti item diskaun yang berkaitan dan perisian yang disyorkan. Adegan sembang lebih kompleks Pasukan penyelidik menambah kandungan gangguan pada mesej yang dihantar oleh pihak lain dalam antara muka sembang Jika ejen mematuhi gangguan ini, ia akan dianggap sebagai tindakan yang tidak setia. Pasukan penyelidik mereka bentuk proses segera khusus untuk setiap subset, menggunakan GPT-4 dan data calon perolehan luaran untuk melengkapkan pembinaan Contoh setiap subset ditunjukkan dalam Rajah 4.
Abbildung 4: Beispiele simulierter Daten in vier Szenarien. - Arbeitsmodus. Der Arbeitsmodus beeinflusst die Leistung des Agenten, insbesondere bei komplexen GUI-Umgebungen. Der Grad der Umgebungswahrnehmung ist der Engpass für die Leistung des Agenten. Er bestimmt, ob der Agent effektive Aktionen erfassen kann, und gibt die Obergrenze der Aktionsvorhersage an. Sie implementierten drei Arbeitsmodi mit unterschiedlichem Umweltbewusstsein, nämlich implizite Wahrnehmung, teilweise Wahrnehmung und optimale Wahrnehmung. (1) Implizite Wahrnehmung bedeutet, dass dem Agenten direkt Anforderungen gestellt werden. Die Eingabe besteht lediglich aus Anweisungen und Bildschirmen und dient nicht der Wahrnehmung der Umgebung (direkte Eingabeaufforderung). (2) Die partielle Wahrnehmung fordert den Agenten auf, zunächst die Umgebung zu analysieren. Dabei verwendet er einen der Denkkette ähnlichen Modus. Der Agent empfängt zunächst den Screenshot-Status, um mögliche Vorgänge zu extrahieren, und sagt dann den nächsten Vorgang basierend auf dem Ziel voraus. (3) Die beste Wahrnehmung besteht darin, dem Agenten den Operationsbereich des Bildschirms direkt zur Verfügung zu stellen (mit Aktionsanmerkung). Im Wesentlichen bedeuten unterschiedliche Arbeitsmodi zwei Änderungen: Informationen über mögliche Vorgänge werden dem Agenten angezeigt, und Informationen werden vom visuellen Kanal in den Textkanal zusammengeführt.
Das Forschungsteam führte Experimente mit 10 bekannten multimodalen großen Modellen anhand von 1189 simulierten Daten durch. Für die systematische Analyse haben wir zwei Arten von Modellen als GUI-Agenten ausgewählt: (1) allgemeine Modelle, einschließlich leistungsstarker Black-Box-Großmodelle basierend auf API-Diensten (GPT-4v, GPT-4o, GLM-4v, Qwen-VL -plus, Claude-Sonnet-3.5) und Open-Source-Großmodelle (Qwen-VL-chat, MiniCPM-Llama3-v2.5, LLaVa-v1.6-34B). (2) GUI-Expertenmodelle, einschließlich CogAgent-Chat und SeeClick, die vorab trainiert oder mit Anweisungen verfeinert wurden. Die vom Forschungsteam verwendeten Indikatoren sind , die jeweils der Genauigkeit der vorhergesagten Aktion des Modells entsprechen, die der erfolgreichen besten Aktion, der gestörten Aktion und der ungültigen Aktion entspricht. Das Forschungsteam fasste die Ergebnisse des Experiments in Antworten auf drei Fragen zusammen:
- Wird eine multimodale Umgebung die Ziele des GUI-Agenten beeinträchtigen? In riskanten Umgebungen sind multimodale Agenten anfällig für Störungen, die dazu führen können, dass sie ihre Ziele aufgeben und sich illoyal verhalten. In jedem der vier Szenarien des Teams erzeugte das Modell ein vom ursprünglichen Ziel abweichendes Verhalten, was die Genauigkeit der Aktion verringerte. Das starke API-Modell (9,09 % für GPT-4o) und das Expertenmodell (6,84 % für SeeClick) sind zuverlässiger als das allgemeine Open-Source-Modell.
- Welcher Zusammenhang besteht zwischen Treue und Hilfsbereitschaft? Dies ist in zwei Situationen unterteilt. Erstens gibt es leistungsstarke Modelle, die korrekte Aktionen ausführen und dabei treu bleiben können (GPT-4o, GPT-4v und Claude). Sie weisen sowohl niedrige -Werte als auch relativ hohe und niedrige -Werte auf. Allerdings führt eine größere Wahrnehmung, aber eine geringere Wiedergabetreue zu einer größeren Anfälligkeit für Störungen und einem geringeren Nutzen. Beispielsweise weist GLM-4v im Vergleich zu Open-Source-Modellen höhere und viel niedrigere auf.Daher schließen sich Wiedergabetreue und Nützlichkeit nicht gegenseitig aus, sondern können gleichzeitig verbessert werden. Um die Fähigkeiten eines leistungsstarken Modells zu erreichen, ist es noch wichtiger, die Wiedergabetreue zu verbessern.
- Kann unterstütztes multimodales Umweltbewusstsein dazu beitragen, Untreue zu mildern? Durch die Implementierung verschiedener Arbeitsmodi werden visuelle Informationen in Textkanäle integriert, um das Umweltbewusstsein zu stärken. Die Ergebnisse zeigen jedoch, dass die GUI-fähige Textverbesserung tatsächlich die Interferenz erhöht und die Zunahme der Interferenzaktionen ihre Vorteile sogar überwiegen kann. Der CoT-Modus fungiert als selbstgesteuerte Textverbesserung, die die Wahrnehmungsbelastung deutlich reduzieren kann, aber auch Störungen erhöht. Selbst wenn die Wahrnehmung dieses Leistungsengpasses verstärkt wird, besteht die Anfälligkeit für die Wiedergabetreue weiterhin und ist sogar noch riskanter. Daher muss bei der Informationsfusion zwischen Text- und visuellen Modalitäten wie OCR sorgfältiger vorgegangen werden.
Abbildung 5: Testergebnisse zu Umwelteinflüssen. Darüber hinaus stellte das Forschungsteam beim Modellvergleich fest, dass das API-basierte Modell das Open-Source-Modell in Bezug auf Genauigkeit und Leistung übertraf Wirksamkeit. Eine Vorschulung für die grafische Benutzeroberfläche kann die Zuverlässigkeit und Effektivität von Expertenagenten erheblich verbessern, führt jedoch möglicherweise zu Abkürzungen, die zum Scheitern führen. Im Vergleich der Arbeitsmodi stellte das Forscherteam außerdem fest, dass der Agent auch bei „perfekter“ Wahrnehmung (Aktionsannotation) immer noch störanfällig ist. CoT führt nicht zu einer vollständigen Verteidigung, aber ein selbstgesteuerter Schritt-für-Schritt-Prozess zeigt das Potenzial zur Schadensbegrenzung auf.
Schließlich betrachtete das Forschungsteam anhand der oben genannten Ergebnisse einen Extremfall mit einer gegnerischen Rolle und demonstrierte einen realisierbaren aktiven Angriff, der als
Environment Inject bezeichnet wird . Stellen Sie sich ein Angriffsszenario vor, bei dem der Angreifer die GUI-Umgebung ändern muss, um das Modell in die Irre zu führen. Ein Angreifer kann Nachrichten von Benutzern abhören und Ziele erreichen sowie zugehörige Daten kompromittieren, um Umgebungsinformationen zu ändern. Beispielsweise kann ein Angreifer Pakete vom Host abfangen und den Inhalt einer Website ändern. Die Einstellung der Umgebungsinjektion unterscheidet sich von der vorherigen. Der vorherige Artikel befasste sich mit dem häufigen Problem unvollständiger, lauter oder fehlerhafter Umgebungen, die Angreifer durch die Erstellung ungewöhnlicher oder bösartiger Inhalte hervorrufen können. Das Forschungsteam führte eine Überprüfung der Popup-Szene durch und schlug eine einfache und effektive Methode zum Umschreiben dieser beiden Schaltflächen vor und implementierte sie. (1) Die Schaltfläche, die das Aufzählungsfeld akzeptiert, wurde so umgeschrieben, dass sie mehrdeutig ist, was sowohl für Ablenker als auch für echte Ziele sinnvoll ist. Für beide Zwecke haben wir eine gemeinsame Vorgehensweise gefunden. Während der Inhalt der Box den Kontext liefert und die wahre Funktion der Schaltfläche anzeigt, ignorieren Modelle häufig die Bedeutung des Kontexts. (2) Die Schaltfläche zum Ablehnen des Popup-Fensters wurde als emotionaler Ausdruck umgeschrieben. Diese leitende Emotion kann manchmal Benutzerentscheidungen beeinflussen oder sogar manipulieren. Dieses Phänomen tritt häufig bei der Deinstallation eines Programms wie „Brutal Leave“ auf.
Diese Umschreibungsmethoden verringern die Wiedergabetreue von GLM-4v und GPT-4o und verbessern den
-Score im Vergleich zum Basisscore erheblich. GLM-4v ist anfälliger für emotionale Ausdrücke, während GPT-4o anfälliger für mehrdeutige Akzeptanzfehlleitungen ist. Abbildung 6: Experimentelle Ergebnisse der Injektion bösartiger Umgebungen. Dies Artikel: Die Genauigkeit multimodaler GUI-Agenten wird untersucht und der Einfluss von Umgebungsinterferenzen wird aufgedeckt. Das Forschungsteam schlug eine neue Forschungsfrage vor – Umweltinterferenz von Agenten, und ein neues Forschungsszenario – sowohl Benutzer als auch Agenten sind harmlos und die Umgebung ist nicht bösartig, aber es gibt Inhalte, die die Aufmerksamkeit ablenken können. Das Forschungsteam simulierte Störungen in vier Szenarien und implementierte drei Arbeitsmodi mit unterschiedlichen Wahrnehmungsebenen. Es wird eine breite Palette allgemeiner Modelle und GUI-Expertenmodelle evaluiert. Experimentelle Ergebnisse zeigen, dass die Anfälligkeit für Störungen die Treue und Hilfsbereitschaft erheblich verringert und dass Schutz nicht allein durch eine verbesserte Wahrnehmung erreicht werden kann.
Darüber hinaus schlug das Forschungsteam eine Angriffsmethode namens „Environmental Injection“ vor, die Untreue ausnutzt, indem sie den Eingriff so verändert, dass er mehrdeutige oder emotional irreführende Inhalte enthält. Noch wichtiger ist, dass in diesem Artikel mehr Aufmerksamkeit für die Treue multimodaler Agenten gefordert wird. Das Forschungsteam empfiehlt, dass zukünftige Arbeiten ein Vortraining für die Wiedergabetreue, die Berücksichtigung von Korrelationen zwischen Umgebungskontext und Benutzeranweisungen, die Vorhersage möglicher Konsequenzen der Ausführung von Aktionen und bei Bedarf die Einführung einer Mensch-Computer-Interaktion umfassen. Atas ialah kandungan terperinci Adakah hantu mengawal telefon anda? Ejen GUI model besar terdedah kepada rampasan persekitaran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!