Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.-일체 포함-php.cn

AI 비서의 미래라고 하면 사람들은 쉽게 '아이언맨' 시리즈의 AI 비서 자비스를 떠올릴 수 있다. 자비스는 영화에서 눈부신 활약을 펼친다. 그는 토니 스타크의 오른팔일 뿐만 아니라 첨단 기술과 소통하는 가교 역할을 하기도 한다. 대규모 모델의 등장으로 인간이 도구를 사용하는 방식은 혁명적인 변화를 겪고 있으며, 어쩌면 우리는 공상과학 시나리오에 한 발 더 다가섰을지도 모릅니다. 인간처럼 키보드와 마우스를 통해 우리 주변의 컴퓨터를 직접 제어할 수 있는 다중 모드 에이전트를 상상해 보세요. 이 획기적인 발전은 얼마나 흥미로울까요?

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.

AI 보조 Jarvis

길림대학교 인공지능대학의 최신 연구 "ScreenAgent: 비전 언어 모델 기반 컴퓨터 제어 에이전트"는 대규모 시각적 언어 모델을 사용하여 컴퓨터 GUI를 직접 제어합니다. 본 연구에서는 추가적인 태그 지원 없이 VLM Agent를 통해 처음으로 컴퓨터 마우스와 키보드를 직접 제어하는 ScreenAgent 모델을 제안하여 대규모 모델의 컴퓨터 직접 조작이라는 목표를 달성했습니다. 또한 ScreenAgent는 자동화된 "계획-실행-반영" 프로세스를 사용하여 처음으로 GUI 인터페이스를 지속적으로 제어합니다. 이 작업은 인간과 컴퓨터의 상호 작용 방법을 탐색하고 혁신하며, 정확한 위치 정보가 포함된 데이터 세트, 컨트롤러 및 훈련 코드를 포함한 오픈 소스 리소스도 탐구하고 혁신합니다.

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.

논문 주소: https://arxiv.org/abs/2402.07945
프로젝트 주소: https://github.com/niuzaisheng/ScreenAgent

ScreenAgent는 사용자에게 편리한 온라인 엔터테인먼트, 쇼핑, 여행 및 독서 경험을 제공합니다. 개인용 컴퓨터 관리와 빠른 업무처리를 도와주는 개인 집사로도 활용 가능합니다. 아무런 노력 없이도 강력한 사무 보조자가 됩니다. 실질적인 효과를 통해 사용자는 그 기능을 이해할 수 있습니다.

인터넷 서핑을 통해 엔터테인먼트의 자유를 누릴 수 있습니다.

ScreenAgent는 사용자 텍스트 설명을 기반으로 온라인에서 특정 비디오를 검색하고 재생합니다.

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.

시스템 운영 관리자, 사용자의 고급 기술

ScreenAgent에서 Windows 이벤트 뷰어를 열 수 있습니다.

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.

사무실 기술을 익히고 쉽게 사무실에서 놀 수 있습니다

또한 ScreenAgent는 사무용 소프트웨어를 사용할 수 있습니다. 예를 들어, 사용자 텍스트 설명에 따라 열린 두 번째 페이지에서 PPT를 삭제합니다.

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.

행동을 취하기 전에 계획을 세우고, 멈춰야 할 곳을 파악하고

특정 작업을 완료하려면 , 작업을 실행하기 전에 완료해야 합니다. 활동 계획을 잘 수행하세요. ScreenAgent는 작업을 시작하기 전에 관찰된 이미지와 사용자 요구를 기반으로 계획을 세울 수 있습니다. 예:

비디오 재생 속도를 1.5배로 조정:

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.

58개 도시에서 중고 Magotan 자동차 검색 웹사이트 가격:

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.

명령줄에 xeyes 설치:

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.

시각적 위치 지정 기능 마이그레이션, 마우스 선택에 스트레스가 없습니다

ScreenAgent는 또한 자연 개체를 시각적으로 찾는 기능을 유지하며 마우스를 드래그하여 개체의 선택 프레임을 그릴 수 있습니다. 사용자 그래픽 인터페이스와의 직접적인 상호 작용 방법을 가르치는 것은 간단한 문제가 아닙니다. 에이전트는 작업 계획, 이미지 이해, 시각적 위치 지정 및 도구 사용과 같은 여러 가지 포괄적인 기능을 갖추고 있어야 합니다. 예를 들어 LLaVA-1.5와 같은 모델은 대형 이미지에 대한 정확한 시각적 위치 지정 기능이 부족하지만 GPT-4V는 매우 강력한 임무 계획, 이미지 이해 및 OCR 기능을 제공하지 않습니다. 정확한 좌표를 얻으세요. 기존 솔루션은 이미지에 추가 디지털 라벨을 수동으로 주석 처리해야 하며, Mobile-Agent, UFO 및 기타 프로젝트와 같이 클릭해야 하는 UI 요소를 모델이 선택할 수 있도록 합니다. 또한 CogAgent 및 Fuyu-8B와 같은 모델도 지원할 수 있습니다. 고해상도 이미지 입력 및 정확한 시각적 위치 지정 기능이 있지만 CogAgent에는 완전한 함수 호출 기능이 부족하고 Fuyu-8B에는 언어 기능이 부족합니다.

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다. 위 문제를 해결하기 위해 기사에서는 시각적 언어 모델 에이전트(VLM Agent)가 실제 컴퓨터 화면과 상호 작용할 수 있는 새로운 환경을 구축할 것을 제안합니다. 이 환경에서 에이전트는 스크린샷을 관찰하고 마우스 및 키보드 동작을 출력하여 그래픽 사용자 인터페이스를 조작할 수 있습니다. VLM 에이전트가 컴퓨터 화면과 지속적으로 상호 작용하도록 안내하기 위해 기사에서는 "계획-실행-반영"을 포함하는 운영 프로세스를 구성합니다. 계획 단계에서 상담원은 사용자 작업을 하위 작업으로 분류하라는 요청을 받습니다. 실행 단계에서 에이전트는 스크린샷을 관찰하여 하위 작업을 수행하기 위한 특정 마우스 및 키보드 동작을 제공합니다. 컨트롤러는 이러한 작업을 실행하고 실행 결과를 에이전트에 피드백합니다. 반영 단계에서 에이전트는 실행 결과를 관찰하고 현재 상태를 확인하며 계속 실행, 재시도 또는 계획 조정을 선택합니다. 이 프로세스는 작업이 완료될 때까지 계속됩니다. ScreenAgent는 텍스트 인식이나 아이콘 인식 모듈을 사용할 필요가 없으며 엔드투엔드 접근 방식을 사용하여 모델의 모든 기능을 교육한다는 점을 언급할 가치가 있습니다.

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.

ScreenAgent 환경은 가장 기본적인 마우스 및 키보드 작업을 포함하여 에이전트의 작업 공간을 설계하기 위한 VNC 원격 데스크톱 연결 프로토콜을 의미합니다. 마우스 클릭 작업을 수행하려면 에이전트가 정확한 화면 좌표를 제공해야 합니다. 작업을 완료하기 위해 특정 API를 호출하는 것과 비교할 때 이 방법은 더 일반적이며 Windows 및 Linux 데스크톱과 같은 다양한 데스크톱 운영 체제 및 애플리케이션에 적용될 수 있습니다.

ScreenAgent Dataset

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다. ScreenAgent 모델을 교육하기 위해 기사에서는 정확한 시각적 위치 정보로 ScreenAgent 데이터 세트에 수동으로 주석을 달았습니다. 이 데이터 세트는 Windows 및 Linux 데스크톱 환경의 파일 작업, 웹 탐색, 게임 엔터테인먼트 및 기타 시나리오를 포함하여 광범위한 일상 컴퓨터 작업을 다룹니다.

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다. 데이터 세트의 각 샘플은 작업 설명, 스크린샷, 특정 실행 작업을 포함하여 작업을 완료하기 위한 완전한 프로세스입니다. 예를 들어, 아마존 웹사이트에서 "가장 싼 초콜릿을 장바구니에 담기"의 경우, 먼저 검색창에 키워드를 검색한 후, 필터를 이용해 가격을 정렬하고, 마지막으로 가장 저렴한 상품을 쇼핑에 추가해야 합니다. 카트. 전체 데이터세트에는 273개의 완전한 작업 기록이 포함되어 있습니다.

실험 결과

Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다. 실험 분석 부분에서 저자는 ScreenAgent를 주로 두 가지 수준, 명령 추종 능력 및 세밀한 행동 예측 비율의 정확성을 포함하여 다양한 각도에서 기존의 여러 VLM 모델과 비교했습니다. 명령 따르기 기능은 주로 모델이 JSON 형식의 작업 순서와 작업 유형을 올바르게 출력할 수 있는지 여부를 테스트합니다. 액션 속성 예측의 정확도는 마우스 클릭 위치, 키보드 키 등 각 액션의 속성 값이 올바르게 예측되었는지 비교합니다.