潘奕琛:浙江大學碩士一年級研究生。孔德涵:跨越星空科技模型演算法負責人。周思達:南昌大學 2024 年畢業生,將於西安電子科技大學攻讀碩士。崔成:浙江中醫藥大學 2024 屆畢業生,將於蘇州大學攻讀碩士。
潘奕琛、週思達、崔成以跨越星空科技演算法實習生的身份共同完成了本論文的研究工作。
在當今科技迅速發展的時代,大型語言模型(Large Language Model,LLM)正以前所未有的速度改變著我們與數位世界的互動方式。基於 LLM 的智慧型代理(LLM Agent),從簡單的資訊搜尋到複雜的網頁操作,它們正在逐步融入我們的生活。然而,一個關鍵問題仍然懸而未決:當這些 LLM Agent 踏入真實的線上網路世界時,它們的表現能否如預期般游刃有餘?
現有的評測方法大多停留在靜態資料集或模擬網站的層面。這些方法有其價值,但限制顯而易見:靜態資料集難以捕捉網頁環境的動態變化,如介面更新和內容迭代;而模擬網站則缺乏真實世界的複雜性,未能充分考慮跨站操作,例如使用搜尋引擎等操作,這些因素在真實環境中是不可或缺的。
為破解這個難題,一篇題為《WebCanvas: Benchmarking Web Agents
in Online Environments》的論文提出了一種創新的在線評測框架——WebCanvas,旨在為Agent 在真實網絡世界中的表現提供一個全面的評估方法。
論文連結:https://arxiv.org/pdf/2406.12373
WebCanvas 平台連結:https://imean.ai/web
WebCanvas 框架圖。左側展示的是任務的標註過程,右側顯示的是任務的評估過程。 WebCanvas 考慮到了線上網路互動中任務路徑的非唯一性,「獎盃」 代表成功到達每個關鍵節點後獲得的步驟分數。
基於 WebCanvas 框架,作者建立了 Mind2Web-Live 資料集,該資料集包含從 Mind2Web 中隨機挑選出的 542 個任務。本文作者也為資料集中的每個任務都標註了關鍵節點。透過一系列實驗,我們發現,當 Agent 配備 Memory 模組,輔以 ReAct 推理框架,並搭載 GPT-4-turbo 模型後,其任務成功率提升至 23.1%。我們深信,隨著科技的不斷演進,Web Agent 的潛力依舊無限,這個數字很快就會被突破。關鍵節點
「關鍵節點」 的概念是 WebCanvas 的核心思想之一。關鍵節點指的是完成特定網路任務過程中不可或缺的步驟,也就是說,無論完成任務的路徑如何,這些步驟都是不可或缺的。這些步驟涵蓋了造訪特定網頁以及在頁面上執行特定操作,例如填寫表單或點擊按鈕。
以 WebCanvas 框架圖綠色部分為例,用戶需要在爛番茄網站上尋找評分最高的即將上映的冒險電影。他可以透過多種途徑達到目的,例如從爛番茄的首頁開始探索,或直接透過搜尋引擎定位置 “即將上映的電影” 頁面。在篩選影片的過程中,使用者可能會先選擇 「冒險」 類型,再根據受歡迎程度排序,或反之亦然。雖然存在多條實現目標的路徑,但進入特定頁面並進行篩選是完成任務不可或缺的步驟。因此,這三個操作被定義為該任務的關鍵節點。評估指標
WebCanvas 的評估系統分為兩大部分:步驟得分和任務得分,兩者共同構評估 WebAgent 綜合能力。Ikhtisar fungsi penilaian, di mana E mewakili elemen web Element
Skor tugasan: dibahagikan kepada skor penyelesaian tugas dan skor kecekapan. Skor penyelesaian tugasan mencerminkan sama ada Ejen berjaya memperoleh semua markah langkah untuk tugasan ini. Skor kecekapan mengambil kira penggunaan sumber pelaksanaan tugas dan dikira sebagai purata bilangan langkah yang diperlukan untuk menjaringkan setiap langkah.
Mind2Web-Live Dataset
Pengarang memilih secara rawak 601 tugasan bebas masa daripada set latihan Mind2Web dan 179 tugasan bebas masa yang sama daripada subset Tugasan Silang set ujian ini, dan kemudian digabungkan dianotasi dalam persekitaran dalam talian sebenar. Akhirnya, penulis membina set data Mind2Web-Live yang terdiri daripada 542 tugasan, termasuk 438 sampel latihan dan 104 sampel untuk ujian. Rajah di bawah menunjukkan secara visual taburan hasil anotasi dan fungsi penilaian.
Alat anotasi data
Semasa proses anotasi data, pengarang menggunakan pemalam pelayar iMean Builder yang dibangunkan oleh Chuanxingkong Technology. Pemalam ini boleh merekodkan tingkah laku interaksi penyemak imbas pengguna, termasuk tetapi tidak terhad kepada klik, input teks, melayang, menyeret dan tindakan lain Ia juga merekodkan jenis operasi tertentu, parameter pelaksanaan, laluan Pemilih elemen sasaran, serta kandungan elemen dan kedudukan koordinat halaman. Selain itu, iMean Builder juga menjana tangkapan skrin halaman web untuk setiap langkah operasi, memberikan paparan intuitif aliran kerja pengesahan dan penyelenggaraan.
Contoh: Menganotasi dua tugasan berbeza menggunakan pemalam iMean Builder. (A) Cari tempat letak kereta limosin di California yang menawarkan Wi-Fi percuma di Yelp, (B) Cari permainan Dota 2 di Steam dan tambahkan semua DLC pada troli beli-belah anda
Penyelenggaraan data
Persekitaran rangkaian berubah dengan pantas, kemas kini kandungan laman web, pelarasan antara muka pengguna dan juga penutupan tapak adalah tidak dapat dielakkan dan normal. Perubahan ini boleh menyebabkan tugas atau nod utama yang ditakrifkan sebelum ini kehilangan ketepatan masanya, sekali gus menjejaskan kesahihan dan kesaksamaan penilaian.
Untuk tujuan ini, penulis telah merangka pelan penyelenggaraan data bertujuan untuk memastikan perkaitan dan ketepatan set penilaian yang berterusan. Dalam fasa pengumpulan data, selain menandakan nod utama, pemalam iMean Builder juga boleh merekodkan maklumat terperinci pada setiap langkah pelaksanaan aliran kerja, termasuk jenis tindakan, laluan Pemilih, nilai elemen, kedudukan koordinat, dsb. Penggunaan seterusnya strategi pemadanan elemen SDK iMean Replay boleh menghasilkan semula tindakan aliran kerja dan segera mengesan dan melaporkan sebarang keadaan tidak sah dalam aliran kerja atau fungsi penilaian.
Melalui penyelesaian ini, kami menyelesaikan cabaran yang disebabkan oleh kegagalan proses dengan berkesan, memastikan set data penilaian boleh menyesuaikan diri dengan evolusi berterusan dunia dalam talian, dan menyediakan asas yang kukuh untuk keupayaan Ejen penilaian automatik.
Platform Pengurusan Data
Di tapak web WebCanvas, pengguna boleh menyemak imbas dengan jelas semua proses tugasan yang direkodkan dan nod utama mereka, dan juga boleh memberi maklum balas yang cepat terhadap proses yang gagal kepada pentadbir platform untuk memastikan ketepatan masa dan ketepatan data.
Pada masa yang sama, penulis menggalakkan ahli komuniti untuk mengambil bahagian secara aktif dan bersama-sama membina ekosistem yang baik. Sama ada ia mengekalkan integriti data sedia ada, membangunkan ejen yang lebih maju untuk ujian, atau bahkan mencipta set data baharu sepenuhnya, WebCanvas mengalu-alukan sumbangan dari semua jenis. Ini bukan sahaja menggalakkan peningkatan kualiti data, tetapi juga menggalakkan inovasi teknologi, yang boleh membentuk kitaran murni untuk menggalakkan pembangunan seluruh bidang.
webcanvas homepage
visual paparan mind2web-live dataset
basic ejen rangka kerja
Penulis telah membina rangka kerja ejen yang komprehensif yang direka untuk mengoptimumkan ejen dalam rangkaian pelaksanaan tugas dalam talian dalam persekitaran. Rangka kerja ini terutamanya terdiri daripada empat komponen utama: modul Perancangan, Pemerhatian, Ingatan dan Ganjaran.
Perancangan: Berdasarkan input Pokok Kebolehcapaian, modul Perancangan menggunakan rangka kerja penaakulan ReAct untuk melaksanakan inferens logik dan menjana arahan operasi khusus. Fungsi teras modul ini adalah untuk memberikan laluan tindakan berdasarkan status semasa dan matlamat tugas.
Pemerhatian: Ejen menghuraikan kod sumber HTML yang disediakan oleh penyemak imbas dan menukarnya menjadi struktur Pokok Kebolehcapaian. Proses ini memastikan bahawa Ejen boleh menerima maklumat halaman web dalam format piawai untuk analisis dan membuat keputusan seterusnya.
Memori: Modul Memori bertanggungjawab untuk menyimpan data sejarah Ejen semasa pelaksanaan tugas, termasuk tetapi tidak terhad kepada proses pemikiran Ejen, keputusan lepas, dsb.
Ganjaran: Modul Ganjaran boleh menilai tingkah laku Ejen, termasuk maklum balas tentang kualiti membuat keputusan dan memberi isyarat penyelesaian tugas. . Keputusan percubaan ditunjukkan dalam rajah di bawah, di mana Kadar Penyiapan merujuk kepada kadar pencapaian nod utama, dan Kadar Kejayaan Tugasan merujuk kepada kadar kejayaan tugasan.
Selain itu, penulis juga meneroka kesan modul Ganjaran terhadap keupayaan Ejen Tanda (+) menunjukkan bahawa maklumat Ganjaran mengandungi data anotasi manusia dan maklumat nod utama untuk rujukan Ejen. skor Penjajaran Manusia mewakili Sejauh mana ejen itu sejajar dengan manusia. Keputusan percubaan awal menunjukkan bahawa dalam persekitaran rangkaian dalam talian, Ejen tidak dapat meningkatkan keupayaannya melalui modul Ganjaran Diri, tetapi modul Ganjaran yang menyepadukan data anotasi asal boleh meningkatkan keupayaan Ejen.
Experimental Analysis Dalam lampiran, penulis menganalisis hasil eksperimen trajektori perubahan yang semakin meningkat, manakala garisan biru mencerminkan trajektori kadar kejayaan tugasan dengan kerumitan tugas.
Hubungan antara kerumitan tugas dan kesukaran tugas. "bilangan langkah" merujuk kepada panjang urutan tindakan dalam data beranotasi, yang bersama-sama dengan bilangan nod utama berfungsi sebagai rujukan untuk kerumitan tugas.
Jadual berikut menunjukkan hubungan antara keputusan percubaan dan kawasan, peralatan dan sistem.
Ringkasan
Dalam perjalanan untuk mempromosikan pembangunan LLM dan teknologi Agen, adalah penting untuk membina sistem penilaian yang menyesuaikan diri dengan persekitaran rangkaian sebenar. Artikel ini memberi tumpuan kepada menilai prestasi Ejen secara berkesan dalam dunia Internet yang berubah dengan pantas. Kami menghadapi cabaran secara berterusan dan mencapai matlamat ini dengan mentakrifkan nod utama dan fungsi penilaian yang sepadan dalam persekitaran terbuka, dan membangunkan sistem penyelenggaraan data untuk mengurangkan kos penyelenggaraan seterusnya.
Melalui usaha yang tidak putus-putus, kami telah mengambil langkah besar ke arah mewujudkan sistem penilaian dalam talian yang mantap dan tepat. Walau bagaimanapun, menjalankan semakan dalam ruang siber dinamik bukanlah mudah, dan ia memperkenalkan satu siri isu kompleks yang tidak ditemui dalam senario luar talian yang tertutup. Dalam proses menilai Ejen, kami menghadapi kesukaran seperti sambungan rangkaian yang tidak stabil, akses laman web yang terhad dan pengehadan fungsi penilaian. Masalah ini menyerlahkan tugas sukar untuk menilai Ejen dalam persekitaran dunia sebenar yang kompleks, yang memerlukan kami untuk terus memperhalusi dan melaraskan rangka kerja penaakulan dan penilaian Ejen. Kami menyeru seluruh komuniti penyelidikan saintifik untuk bekerjasama untuk menghadapi cabaran yang tidak diketahui dan mempromosikan inovasi dan peningkatan teknologi penilaian. Kami amat percaya bahawa hanya melalui penyelidikan dan amalan yang berterusan, halangan ini dapat diatasi secara beransur-ansur. Kami berharap dapat bekerjasama dengan rakan sebaya kami untuk mencipta era baharu Agen LLM.
以上是有效評估Agent實際表現,新型線上評測架構WebCanvas來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!