Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini-AI-php.cn

Pan Yichen: Pelajar sarjana tahun pertama di Universiti Zhejiang. Kong Dehan: Ketua Algoritma Model di Teknologi Cross Star. Zhou Sida: Lulusan Universiti Nanchang tahun 2024, dia akan belajar untuk ijazah sarjana di Universiti Sains dan Teknologi Elektronik Xi'an. Cui Cheng: Lulusan 2024 dari Universiti Perubatan Tradisional Cina Zhejiang akan belajar untuk ijazah sarjana di Universiti Suzhou.

Pan Yichen, Zhou Sida, dan Cui Cheng bersama-sama menyiapkan kerja penyelidikan kertas ini sebagai pelatih algoritma di Cross Star Technology.

Dalam era perkembangan teknologi yang pesat hari ini, Model Bahasa Besar (LLM) mengubah cara kita berinteraksi dengan dunia digital pada kelajuan yang tidak pernah berlaku sebelum ini. Ejen pintar berasaskan LLM (Ejen LLM) disepadukan secara beransur-ansur ke dalam kehidupan kita, daripada carian maklumat mudah kepada operasi halaman web yang kompleks. Walau bagaimanapun, persoalan utama masih terbuka: Apabila Ejen LLM ini melangkah ke dunia rangkaian dalam talian sebenar, adakah mereka akan berprestasi sebaik yang diharapkan?

Kebanyakan kaedah penilaian sedia ada kekal pada tahap set data statik atau tapak web simulasi. Kaedah ini mempunyai nilainya, tetapi hadnya jelas: set data statik sukar untuk menangkap perubahan dinamik dalam persekitaran web, seperti kemas kini antara muka dan lelaran kandungan tapak web yang disimulasikan tidak mempunyai kerumitan dunia sebenar dan gagal mempertimbangkan sepenuhnya merentas tapak; operasi, seperti menggunakan enjin carian dan operasi lain, faktor ini amat diperlukan dalam persekitaran sebenar.

Untuk menyelesaikan masalah ini, kertas kerja bertajuk "WebCanvas: Penanda Aras Ejen Web

dalam Persekitaran Dalam Talian" mencadangkan rangka kerja penilaian dalam talian yang inovatif - WebCanvas, bertujuan untuk menanda aras prestasi Ejen dalam dunia dalam talian sebenar pendekatan.

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

Pautan kertas: https://arxiv.org/pdf/2406.12373
Pautan platform WebCanvas: https://imean.ai/web-canvas
//github.com/iMeanAI/WebCanvas
Pautan set data: https://huggingface.co/datasets/iMeanAI/Mind2Web-Live

Salah satu inovasi WebCanvas ialah cadangan konsep "key nodes" . Konsep ini bukan sahaja menumpukan pada penyempurnaan akhir tugasan, tetapi juga mendalami butiran proses pelaksanaan tugas untuk memastikan ketepatan penilaian. WebCanvas menyediakan perspektif baharu untuk penilaian ejen dalam talian dengan mengenal pasti dan mengesan nod utama dalam aliran tugas - sama ada mencapai halaman web tertentu atau melakukan tindakan tertentu (seperti mengklik butang tertentu).

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

Gambarajah bingkai WebCanvas. Bahagian kiri menunjukkan proses pelabelan tugas, dan bahagian kanan menunjukkan proses penilaian tugas. WebCanvas mengambil kira bukan keunikan laluan tugas dalam interaksi rangkaian dalam talian, dan "trofi" mewakili skor langkah yang diperoleh selepas berjaya mencapai setiap nod utama.

Berdasarkan rangka kerja WebCanvas, pengarang membina set data Mind2Web-Live, yang mengandungi 542 tugasan yang dipilih secara rawak daripada Mind2Web. Pengarang artikel ini turut memberi anotasi nod utama untuk setiap tugasan dalam set data. Melalui satu siri percubaan, kami mendapati bahawa apabila Ejen dilengkapi dengan modul Memori, ditambah dengan rangka kerja penaakulan ReAct, dan dilengkapi dengan model GPT-4-turbo, kadar kejayaan tugasnya meningkat kepada 23.1%. Kami amat percaya bahawa dengan evolusi teknologi yang berterusan, potensi Agen Web masih tidak terhad, dan jumlah ini akan dilebihi tidak lama lagi.

Nod utama

Konsep "nod utama" ialah salah satu idea teras WebCanvas. Nod utama merujuk kepada langkah-langkah yang amat diperlukan dalam menyelesaikan tugas rangkaian tertentu

, iaitu, langkah-langkah ini amat diperlukan tanpa mengira laluan untuk menyelesaikan tugasan. Langkah-langkah ini terdiri daripada melawat halaman web tertentu kepada melakukan tindakan khusus pada halaman, seperti mengisi borang atau mengklik butang.

Mengambil bahagian hijau bingkai WebCanvas sebagai contoh, pengguna perlu mencari filem pengembaraan akan datang dengan rating tertinggi di tapak web Rotten Tomatoes. Dia boleh melakukan ini dalam pelbagai cara, seperti bermula dari halaman utama Rotten Tomatoes, atau terus menyasarkan halaman "filem akan datang" enjin carian. Apabila menapis video, pengguna mungkin memilih genre "Pengembaraan" dahulu dan kemudian mengisih mengikut populariti, atau sebaliknya. Walaupun terdapat berbilang laluan untuk mencapai matlamat anda, pergi ke halaman tertentu dan menapis melaluinya adalah langkah penting dalam menyelesaikan tugas. Oleh itu, ketiga-tiga operasi ini ditakrifkan sebagai nod kritikal untuk tugas ini.

Penunjuk penilaian

Sistem penilaian WebCanvas dibahagikan kepada dua bahagian: markah langkah dan markah tugas, yang bersama-sama membentuk penilaian keupayaan komprehensif WebAgent.

Skor Langkah: Mengukur prestasi Ejen pada nod utama Setiap nod kunci dikaitkan dengan fungsi penilaian, melalui tiga sasaran penilaian (URL, laluan elemen, nilai elemen) dan tiga fungsi padanan (tepat, kemasukan, semantik. ) untuk mencapai. Setiap kali ia mencapai nod utama dan melepasi fungsi penilaian, Ejen boleh memperoleh skor yang sepadan. 🎜

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

E가 웹 요소 요소를 나타내는 평가 기능 개요

작업 점수: 작업 완료 점수와 효율성 점수로 구분됩니다. 작업 완료 점수는 상담원이 이 작업에 대한 모든 단계 점수를 성공적으로 획득했는지 여부를 반영합니다. 효율성 점수는 작업 실행의 리소스 활용도를 고려하며 각 단계의 점수를 매기는 데 필요한 평균 단계 수로 계산됩니다.

Mind2Web-Live 데이터 세트

저자는 Mind2Web 훈련 세트에서 시간 독립적인 601개의 작업과 테스트 세트의 교차 작업 하위 집합에서 시간 독립적인 179개의 작업을 무작위로 선택한 다음 이러한 작업을 결합했습니다. 실제 온라인 환경에서 주석을 달았습니다. 마지막으로 저자는 438개의 훈련 샘플과 104개의 테스트용 샘플을 포함하여 542개의 작업으로 구성된 Mind2Web-Live 데이터세트를 구성했습니다. 아래 그림은 주석 결과의 분포와 평가 함수를 시각적으로 보여줍니다.

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

데이터 주석 도구

데이터 주석 과정에서 저자는 Chuanxingkong Technology에서 개발한 iMean Builder 브라우저 플러그인을 사용했습니다. 이 플러그인은 클릭, 텍스트 입력, 가리키기, 끌기 및 기타 작업을 포함하되 이에 국한되지 않는 사용자 브라우저 상호 작용 동작을 기록할 수 있습니다. 또한 특정 작업 유형, 실행 매개변수, 대상 요소의 선택기 경로도 기록합니다. 요소 콘텐츠 및 페이지 좌표 위치. 또한 iMean Builder는 작업의 각 단계에 대한 웹 페이지 스크린샷을 생성하여 확인 및 유지 관리 작업 흐름을 직관적으로 표시합니다.

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

예: iMean Builder 플러그인을 사용하여 두 가지 다른 작업에 주석을 추가합니다. (A) Yelp에서 무료 Wi-Fi를 제공하는 캘리포니아 리무진 주차장을 찾아보세요. (B) Steam에서 Dota 2 게임을 찾아 모든 DLC를 장바구니에 추가하세요.

데이터 유지 관리

네트워크 환경이 변화하고 있습니다. 빠른 속도로 웹사이트 콘텐츠 업데이트, 사용자 인터페이스 조정, 심지어 사이트 폐쇄까지 불가피하고 정상적인 현상입니다. 이러한 변경으로 인해 이전에 정의된 작업이나 핵심 노드가 적시성을 잃어 평가의 타당성과 공정성에 영향을 미칠 수 있습니다.

이를 위해 저자는 평가 세트의 지속적인 관련성과 정확성을 보장하는 것을 목표로 데이터 유지 관리 계획을 설계했습니다. 데이터 수집 단계에서 핵심 노드를 표시하는 것 외에도 iMean Builder 플러그인은 작업 유형, 선택기 경로, 요소 값, 좌표 위치 등을 포함하여 워크플로 실행의 각 단계에 대한 자세한 정보를 기록할 수도 있습니다. 이후 iMean Replay SDK의 요소 일치 전략을 사용하면 워크플로 작업을 재현하고 워크플로 또는 평가 기능에서 유효하지 않은 조건을 즉시 감지하고 보고할 수 있습니다.

이 솔루션을 통해 우리는 프로세스 실패로 인한 문제를 효과적으로 해결하고, 평가 데이터 세트가 온라인 세계의 지속적인 발전에 적응할 수 있도록 보장하며, 자동화된 평가 에이전트의 능력을 위한 견고한 기반을 제공합니다.

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

데이터 관리 플랫폼

WebCanvas 웹사이트에서 사용자는 기록된 모든 작업 프로세스와 해당 핵심 노드를 명확하게 찾아볼 수 있으며 실패한 프로세스를 플랫폼 관리자에게 신속하게 피드백하여 데이터의 적시성과 정확성을 보장할 수 있습니다.

동시에 저자는 커뮤니티 구성원들의 적극적인 참여와 함께 좋은 생태계를 구축할 것을 독려합니다. 기존 데이터의 무결성 유지, 테스트를 위한 고급 에이전트 개발, 완전히 새로운 데이터 세트 생성 등 WebCanvas는 모든 종류의 기여를 환영합니다. 이는 데이터 품질 향상을 촉진할 뿐만 아니라 기술 혁신을 촉진하여 전체 분야의 발전을 촉진하는 선순환을 형성할 수 있습니다.

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

WebCanvas 홈페이지

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

Mind2Web-Live 데이터 세트의 시각적 표시

기본 에이전트 프레임워크

저자는 온라인 네트워크 작업 실행 효율성에서 에이전트를 최적화하도록 설계된 포괄적인 에이전트 프레임워크를 구축했습니다. 환경에서. 프레임워크는 주로 계획, 관찰, 메모리 및 보상 모듈의 네 가지 주요 구성 요소로 구성됩니다.

계획: 접근성 트리의 입력을 기반으로 계획 모듈은 ReAct 추론 프레임워크를 사용하여 논리적 추론을 수행하고 특정 작업 지침을 생성합니다. 이 모듈의 핵심 기능은 현재 상태와 작업 목표에 따라 작업 경로를 제공하는 것입니다.
관찰: 에이전트는 브라우저에서 제공하는 HTML 소스 코드를 구문 분석하여 접근성 트리 구조로 변환합니다. 이 프로세스를 통해 에이전트는 후속 분석 및 의사 결정을 위해 표준화된 형식으로 웹 페이지 정보를 받을 수 있습니다.
메모리: 메모리 모듈은 에이전트의 사고 과정, 과거 결정 등을 포함하되 이에 국한되지 않고 작업 실행 중에 에이전트의 과거 데이터를 저장하는 역할을 합니다.
보상: 보상 모듈은 의사 결정 품질에 대한 피드백 및 작업 완료 신호 제공을 포함하여 에이전트의 행동을 평가할 수 있습니다.

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

기본 에이전트 프레임워크의 개략도

주요 실험

저자는 기본 에이전트 프레임워크를 사용하고 평가를 위해 다양한 LLM에 액세스합니다(보상 모듈 제외). 실험 결과는 아래 그림과 같으며, 완료율은 핵심 노드의 달성률을 의미하고, 작업 성공률은 작업 성공률을 의미합니다.

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

또한 저자는 Reward 모듈이 Agent의 능력에 미치는 영향을 탐색했습니다. (+) 기호는 Reward 정보에 Agent가 참조할 수 있는 인간 주석 데이터와 핵심 노드 정보가 포함되어 있음을 나타냅니다. 인간 정렬 점수는 에이전트가 인간과 얼마나 정렬되어 있는지를 나타냅니다. 예비 실험 결과, 온라인 네트워크 환경에서 Agent는 Self Reward 모듈을 통해 성능을 향상시킬 수 없으나, 원본 주석 데이터를 통합한 Reward 모듈을 통해 Agent의 성능을 향상시킬 수 있는 것으로 나타났습니다.

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

실험 분석

저자는 실험 결과를 분석합니다. 다음 그림은 작업 복잡도와 작업 난이도의 관계를 나타냅니다. 파란색 선은 작업 복잡성에 따른 작업 성공률의 궤적을 반영하는 반면, 변화가 증가하는 궤적을 나타냅니다.

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

작업 복잡성과 작업 난이도의 관계. "단계 수"는 주석이 달린 데이터의 작업 시퀀스 길이를 나타내며, 이는 주요 노드 수와 함께 작업 복잡성에 대한 참조 역할을 합니다.

다음 표는 실험 결과와 지역, 장비, 시스템 간의 관계를 보여줍니다.

Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini

요약

LLM 및 Agent 기술 개발을 촉진하는 과정에서는 실제 네트워크 환경에 적합한 평가 시스템을 구축하는 것이 중요합니다. 이 기사에서는 빠르게 변화하는 인터넷 세계에서 에이전트 성능을 효과적으로 평가하는 데 중점을 둡니다. 우리는 도전에 정면으로 직면하여 개방형 환경에서 핵심 노드와 해당 평가 기능을 정의함으로써 이 목표를 달성했으며, 후속 유지 관리 비용을 줄이기 위한 데이터 유지 관리 시스템을 개발했습니다.

우리는 끊임없는 노력을 통해 강력하고 정확한 온라인 평가 시스템을 구축하기 위한 실질적인 조치를 취했습니다. 그러나 역동적인 사이버 공간에서 검토를 수행하는 것은 쉽지 않으며 폐쇄적인 오프라인 시나리오에서는 발생하지 않는 일련의 복잡한 문제를 야기합니다. 에이전트 평가 과정에서 불안정한 네트워크 연결, 웹사이트 접속 제한, 평가 기능 제한 등의 어려움을 겪었습니다. 이러한 문제는 복잡한 실제 환경에서 에이전트를 평가하는 힘든 작업을 강조하므로 에이전트의 추론 및 평가 프레임워크를 지속적으로 개선하고 조정해야 합니다.

우리는 전체 과학 연구 커뮤니티가 함께 협력하여 알려지지 않은 과제에 대처하고 평가 기술의 혁신과 개선을 촉진할 것을 촉구합니다. 우리는 지속적인 연구와 실천을 통해서만 이러한 장애물을 점차적으로 극복할 수 있다고 굳게 믿습니다. 우리는 동료들과 협력하여 LLM 에이전트의 새로운 시대를 만들기를 기대합니다.

Atas ialah kandungan terperinci Untuk menilai prestasi sebenar Ejen dengan berkesan, rangka kerja penilaian dalam talian baharu WebCanvas ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!