AI 비서의 미래라고 하면 사람들은 쉽게 '아이언맨' 시리즈의 AI 비서 자비스를 떠올릴 수 있다. 자비스는 영화에서 눈부신 활약을 펼친다. 그는 토니 스타크의 오른팔일 뿐만 아니라 첨단 기술과 소통하는 가교 역할을 하기도 한다. 대규모 모델의 등장으로 인간이 도구를 사용하는 방식은 혁명적인 변화를 겪고 있으며, 어쩌면 우리는 공상과학 시나리오에 한 발 더 다가섰을지도 모릅니다. 인간처럼 키보드와 마우스를 통해 우리 주변의 컴퓨터를 직접 제어할 수 있는 다중 모드 에이전트를 상상해 보세요. 이 획기적인 발전은 얼마나 흥미로울까요?
AI 보조 Jarvis
길림대학교 인공지능대학의 최신 연구 "ScreenAgent: 비전 언어 모델 기반 컴퓨터 제어 에이전트"는 대규모 시각적 언어 모델을 사용하여 컴퓨터 GUI를 직접 제어합니다. 본 연구에서는 추가적인 태그 지원 없이 VLM Agent를 통해 처음으로 컴퓨터 마우스와 키보드를 직접 제어하는 ScreenAgent 모델을 제안하여 대규모 모델의 컴퓨터 직접 조작이라는 목표를 달성했습니다. 또한 ScreenAgent는 자동화된 "계획-실행-반영" 프로세스를 사용하여 처음으로 GUI 인터페이스를 지속적으로 제어합니다. 이 작업은 인간과 컴퓨터의 상호 작용 방법을 탐색하고 혁신하며, 정확한 위치 정보가 포함된 데이터 세트, 컨트롤러 및 훈련 코드를 포함한 오픈 소스 리소스도 탐구하고 혁신합니다.
ScreenAgent는 사용자에게 편리한 온라인 엔터테인먼트, 쇼핑, 여행 및 독서 경험을 제공합니다. 개인용 컴퓨터 관리와 빠른 업무처리를 도와주는 개인 집사로도 활용 가능합니다. 아무런 노력 없이도 강력한 사무 보조자가 됩니다. 실질적인 효과를 통해 사용자는 그 기능을 이해할 수 있습니다.
인터넷 서핑을 통해 엔터테인먼트의 자유를 누릴 수 있습니다.
ScreenAgent는 사용자 텍스트 설명을 기반으로 온라인에서 특정 비디오를 검색하고 재생합니다.
시스템 운영 관리자, 사용자의 고급 기술
ScreenAgent에서 Windows 이벤트 뷰어를 열 수 있습니다.
사무실 기술을 익히고 쉽게 사무실에서 놀 수 있습니다
또한 ScreenAgent는 사무용 소프트웨어를 사용할 수 있습니다. 예를 들어, 사용자 텍스트 설명에 따라 열린 두 번째 페이지에서 PPT를 삭제합니다.
행동을 취하기 전에 계획을 세우고, 멈춰야 할 곳을 파악하고
특정 작업을 완료하려면 , 작업을 실행하기 전에 완료해야 합니다. 활동 계획을 잘 수행하세요. ScreenAgent는 작업을 시작하기 전에 관찰된 이미지와 사용자 요구를 기반으로 계획을 세울 수 있습니다. 예:
비디오 재생 속도를 1.5배로 조정:
58개 도시에서 중고 Magotan 자동차 검색 웹사이트 가격:
명령줄에 xeyes 설치:
시각적 위치 지정 기능 마이그레이션, 마우스 선택에 스트레스가 없습니다
ScreenAgent는 또한 자연 개체를 시각적으로 찾는 기능을 유지하며 마우스를 드래그하여 개체의 선택 프레임을 그릴 수 있습니다. 사용자 그래픽 인터페이스와의 직접적인 상호 작용 방법을 가르치는 것은 간단한 문제가 아닙니다. 에이전트는 작업 계획, 이미지 이해, 시각적 위치 지정 및 도구 사용과 같은 여러 가지 포괄적인 기능을 갖추고 있어야 합니다. 예를 들어 LLaVA-1.5와 같은 모델은 대형 이미지에 대한 정확한 시각적 위치 지정 기능이 부족하지만 GPT-4V는 매우 강력한 임무 계획, 이미지 이해 및 OCR 기능을 제공하지 않습니다. 정확한 좌표를 얻으세요. 기존 솔루션은 이미지에 추가 디지털 라벨을 수동으로 주석 처리해야 하며, Mobile-Agent, UFO 및 기타 프로젝트와 같이 클릭해야 하는 UI 요소를 모델이 선택할 수 있도록 합니다. 또한 CogAgent 및 Fuyu-8B와 같은 모델도 지원할 수 있습니다. 고해상도 이미지 입력 및 정확한 시각적 위치 지정 기능이 있지만 CogAgent에는 완전한 함수 호출 기능이 부족하고 Fuyu-8B에는 언어 기능이 부족합니다.
위 문제를 해결하기 위해 기사에서는 시각적 언어 모델 에이전트(VLM Agent)가 실제 컴퓨터 화면과 상호 작용할 수 있는 새로운 환경을 구축할 것을 제안합니다. 이 환경에서 에이전트는 스크린샷을 관찰하고 마우스 및 키보드 동작을 출력하여 그래픽 사용자 인터페이스를 조작할 수 있습니다. VLM 에이전트가 컴퓨터 화면과 지속적으로 상호 작용하도록 안내하기 위해 기사에서는 "계획-실행-반영"을 포함하는 운영 프로세스를 구성합니다. 계획 단계에서 상담원은 사용자 작업을 하위 작업으로 분류하라는 요청을 받습니다. 실행 단계에서 에이전트는 스크린샷을 관찰하여 하위 작업을 수행하기 위한 특정 마우스 및 키보드 동작을 제공합니다. 컨트롤러는 이러한 작업을 실행하고 실행 결과를 에이전트에 피드백합니다. 반영 단계에서 에이전트는 실행 결과를 관찰하고 현재 상태를 확인하며 계속 실행, 재시도 또는 계획 조정을 선택합니다. 이 프로세스는 작업이 완료될 때까지 계속됩니다. ScreenAgent는 텍스트 인식이나 아이콘 인식 모듈을 사용할 필요가 없으며 엔드투엔드 접근 방식을 사용하여 모델의 모든 기능을 교육한다는 점을 언급할 가치가 있습니다.
ScreenAgent Dataset
ScreenAgent 모델을 교육하기 위해 기사에서는 정확한 시각적 위치 정보로 ScreenAgent 데이터 세트에 수동으로 주석을 달았습니다. 이 데이터 세트는 Windows 및 Linux 데스크톱 환경의 파일 작업, 웹 탐색, 게임 엔터테인먼트 및 기타 시나리오를 포함하여 광범위한 일상 컴퓨터 작업을 다룹니다.
데이터 세트의 각 샘플은 작업 설명, 스크린샷, 특정 실행 작업을 포함하여 작업을 완료하기 위한 완전한 프로세스입니다. 예를 들어, 아마존 웹사이트에서 "가장 싼 초콜릿을 장바구니에 담기"의 경우, 먼저 검색창에 키워드를 검색한 후, 필터를 이용해 가격을 정렬하고, 마지막으로 가장 저렴한 상품을 쇼핑에 추가해야 합니다. 카트. 전체 데이터세트에는 273개의 완전한 작업 기록이 포함되어 있습니다.
실험 결과
실험 분석 부분에서 저자는 ScreenAgent를 주로 두 가지 수준, 명령 추종 능력 및 세밀한 행동 예측 비율의 정확성을 포함하여 다양한 각도에서 기존의 여러 VLM 모델과 비교했습니다. 명령 따르기 기능은 주로 모델이 JSON 형식의 작업 순서와 작업 유형을 올바르게 출력할 수 있는지 여부를 테스트합니다. 액션 속성 예측의 정확도는 마우스 클릭 위치, 키보드 키 등 각 액션의 속성 값이 올바르게 예측되었는지 비교합니다.
따라야 할 명령
명령 따르기 측면에서 에이전트의 첫 번째 작업은 프롬프트 단어에 따라 올바른 도구 기능 호출을 출력하는 것, 즉 올바른 JSON 형식을 출력하는 것입니다. 이 점에서 ScreenAgent와 GPT-4V는 모두 따를 수 있습니다. 명령이 매우 잘 작동하고 원래 CogAgent 시각적 미세 조정 훈련 중에 API 호출 형태의 데이터 지원이 부족하여 JSON을 출력하는 기능이 손실됩니다.
동작 속성 예측 정확도
동작 속성 정확도 측면에서도 ScreenAgent는 GPT-4V와 비슷한 수준에 도달했습니다. 특히 ScreenAgent는 마우스 클릭 정확도에서 기존 모델을 훨씬 능가합니다. 이는 시각적인 미세 조정이 모델의 정확한 위치 지정 능력을 효과적으로 향상한다는 것을 보여줍니다. 또한 GPT-4V의 상식 지식과 임무 계획 능력을 강조하는 임무 계획에서 ScreenAgent와 GPT-4V 사이의 명확한 격차도 관찰됩니다.
길림대학교 인공지능대학팀이 제안한 ScreenAgent는 인간과 동일하게 컴퓨터를 제어할 수 있으며, 다른 API나 OCR 모델에 의존하지 않고, 다양한 응용 소프트웨어 및 운영 체제에서 널리 사용됩니다. ScreenAgent는 '계획-실행-반영' 프로세스에 따라 사용자가 부여한 작업을 자율적으로 완료할 수 있습니다. 이러한 방식으로 사용자는 작업 완료의 모든 단계를 볼 수 있고 에이전트의 행동 생각을 더 잘 이해할 수 있습니다.
이 기사는 제어 소프트웨어, 모델 훈련 코드 및 데이터 세트를 오픈 소스로 제공했습니다. 이를 바탕으로 환경 피드백에 따른 강화 학습, 에이전트의 적극적인 오픈 월드 탐색, 월드 모델 구축, 에이전트 스킬 라이브러리 등 일반 인공 지능을 향한 더 많은 최첨단 작업을 탐색할 수 있습니다.
또한, AI 에이전트 기반 개인 비서는 팔다리가 불편한 사람들의 컴퓨터 사용을 돕고, 인간의 반복적인 디지털 노동을 줄이고, 컴퓨터 교육의 대중화 등 엄청난 사회적 가치를 가지고 있습니다. 미래에는 모든 사람이 아이언맨과 같은 슈퍼히어로가 될 수는 없을지 모르지만, 우리 모두는 우리의 삶과 일에서 우리와 함께하고, 지원하고, 안내할 수 있는 지능적인 파트너인 독점적인 Jarvis를 갖게 될 수도 있습니다.
위 내용은 Windows와 Office를 직접 시작할 수 있습니다. 대형 모델 에이전트로 컴퓨터를 작동하는 것은 매우 쉽습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!