AI アシスタントの未来というと、「アイアンマン」シリーズの AI アシスタント、ジャービスをすぐに思い浮かべることができます。ジャーヴィスは映画の中で目覚ましい活躍を見せており、トニー・スタークの右腕であるだけでなく、先端技術とのコミュニケーションの架け橋でもあります。大型模型の登場により、人間の道具の使い方は革命的に変化しており、SFのシナリオにまた一歩近づいているのかもしれません。人間と同じように、キーボードとマウスを使って周囲のコンピュータを直接制御できるマルチモーダル エージェントを想像してみてください。この画期的な進歩は、どれほどエキサイティングなことでしょう。
AI Assistant Jarvis
吉林大学人工知能学部の最新研究「ScreenAgent」 : ビジョン言語モデル駆動のコンピュータ制御エージェント」は、視覚的な大規模言語モデルを使用してコンピュータ GUI を直接制御するという想像が現実になったことを示しています。この研究では、ScreenAgent モデルを提案しました。これは、追加のラベル支援を必要とせずに、VLM エージェントを介してコンピュータのマウスとキーボードを直接制御することを初めて検討し、大規模モデルの直接コンピュータ操作という目標を達成しました。さらに、ScreenAgent は、自動化された「計画、実行、反映」プロセスを使用して、初めて GUI インターフェイスの継続的な制御を実現します。この研究では、人間とコンピューターの対話方法を探索および革新し、データセット、コントローラー、正確な位置情報を含むトレーニング コードなどのリソースもオープンソース化します。
ScreenAgent はユーザーです便利なオンラインエンターテイメント、ショッピング、旅行、読書体験を提供します。パソコンの管理や素早い作業を実現するパーソナルバトラーとしてもご利用いただけます。手間をかけずに強力なオフィスアシスタントになります。実際の効果を通じて、ユーザーはその機能を理解できます。
#インターネットをサーフィンして、エンターテイメントの自由を実現しましょう##ScreenAgent は、ユーザーに基づいて指定されたビデオをオンラインで検索して再生しますテキストの説明:
ユーザーに高度なスキルを提供するシステム運用マネージャー
ScreenAgent で Windows イベント ビューアを開いてみましょう:
##オフィス スキルをマスターして、オフィスを簡単に操作しましょう
##また、ScreenAgent はオフィス ソフトウェアを使用できます。たとえば、ユーザーのテキスト説明に従って、開いた 2 ページ目の PPT を削除します。
行動を起こす前に計画を立ててください。どこで停止して利益を得るべきかを知る
特定のタスクを完了するには、タスクを実行する前にアクティビティを計画する必要があります。 ScreenAgent は、タスクを開始する前に、観察された画像とユーザーのニーズに基づいて計画を立てることができます。例:
ビデオの再生速度を 1.5 倍に調整します:
# 58 市のウェブサイトでマゴタンの中古車の価格を検索してください:
コマンドライン xeyes のインストール:
視覚的な位置決め機能の移行、マウス選択はストレスフリーです
ScreenAgent 也保留了對於自然事物的視覺定位能力,可以透過滑鼠拖曳的方式繪製出物體的選框:
事實上,要教會Agent 與使用者圖形介面直接互動並不是一件簡單的事情,需要Agent 同時具備任務規劃、影像理解、視覺定位、工具使用等多種綜合能力。現有的模型或交互方案都存在一定妥協,例如LLaVA-1.5 等模型缺乏在大尺寸圖像上的精確視覺定位能力;GPT-4V 有非常強的任務規劃、圖像理解和OCR 的能力,但是拒絕給出精確的座標。現有的方案需要在圖像上人工標註額外的數位標籤,並讓模型選擇需要點選的UI 元素,例如Mobile-Agent、UFO 等項目;此外,CogAgent、Fuyu-8B 等模型可以支援高解析度圖像輸入並有精確視覺定位能力,但是CogAgent 缺乏完整函數呼叫能力,Fuyu-8B 則語言能力不足。
為了解決上述問題,文章提出為視覺語言模型智能體(VLM Agent)建構一個與真實電腦螢幕互動的全新環境。在這個環境中,智能體可以觀察螢幕截圖,並透過輸出滑鼠和鍵盤操作來操縱圖形使用者介面。為了引導 VLM Agent 與電腦螢幕進行持續的交互,文章建構了一個包含「計畫-執行-反思」的運行流程。在計劃階段,Agent 被要求將使用者任務拆解為子任務。在執行階段,Agent 將觀察螢幕截圖,給出執行子任務的具體滑鼠和鍵盤動作。控制器將執行這些動作,並將執行結果回饋給 Agent。在反思階段,Agent 觀察執行結果,並判定目前的狀態,選擇繼續執行、重試或調整計畫。這項流程持續進行,直到任務完成。值得一提的是,ScreenAgent 不需要使用任何文字辨識或圖示辨識模組,使用端到端的方式訓練模型所有的能力。
ScreenAgent 環境參考了VNC 遠端桌面連線協定來設計Agent 的動作空間,包含最基本的滑鼠和鍵盤操作,滑鼠的點擊操作都需要Agent 給出精確的螢幕座標位置。相較於呼叫特定的 API 來完成任務,這種方式更加通用,可以適用於各種 Windows、Linux Desktop 等桌面作業系統和應用程式。
為了訓練ScreenAgent 模型,文章手動標註了具備精準視覺定位訊息的ScreenAgent 資料集。這個資料集涵蓋了豐富的日常電腦任務,包括了 Windows 和 Linux Desktop 環境下的檔案操作、網頁瀏覽、遊戲娛樂等場景。
資料集中每一個樣本都是完成一個任務的完整流程,包含了動作描述、螢幕截圖和具體執行的動作。例如,在亞馬遜網站上「將最便宜的巧克力加入購物車」的案例,需要先在搜尋框中搜尋關鍵字,再使用過濾器對價格進行排序,最後將最便宜的商品加入購物車。整個資料集包含 273 筆完整的任務記錄。
#在實驗分析部分作者將ScreenAgent 與多個現有的VLM 模型從各個角度進行比較,主要包括兩個層面,指令跟隨能力和細粒度動作預測的正確率。指令跟隨能力主要考驗模型能否正確輸出 JSON 格式的動作序列和動作類型的正確率。而動作屬性預測的正確率則比較每種動作的屬性值是否預測正確,例如滑鼠點擊的位置、鍵盤按鍵等。
指令跟隨
##########################在指令跟隨方面,Agent 的首要任務就是能夠根據提示詞輸出正確的工具函數調用,即輸出正確的JSON 格式,在這方面ScreenAgent 與GPT-4V 都能夠很好的遵循指令,而原版的CogAgent 由於視覺微調訓練時缺乏API 呼叫形式的資料的支撐,反而喪失了輸出JSON 的能力。
動作屬性預測的正確率
##從動作屬性的正確率來看,ScreenAgent 也達到了與GPT-4V 相當的水平。值得注意的是,ScreenAgent 在滑鼠點擊的精確度上遠遠超過了現有模型。這顯示視覺微調有效增強了模型的精確定位能力。此外,我們也觀察到 ScreenAgent 在任務規劃方面與 GPT-4V 相比有明顯差距,這凸顯了 GPT-4V 的常識知識和任務規劃能力。
#吉林大學人工智慧學院團隊提出的ScreenAgent 能夠採用與人類一樣的控制方式控制電腦,不依賴其他的API 或OCR 模型,可以廣泛應用於各種軟體和作業系統。 ScreenAgent 在「規劃-執行-反思」的流程控制下,可以自主地完成使用者給定的任務。採用這樣的方式,使用者可以看到任務完成的每一步,更能理解 Agent 的行為想法。
文章開源了控制軟體、模型訓練程式碼、以及資料集。在此基礎上可以探索更多邁向通用人工智慧的前沿工作,例如在環境回饋下的強化學習、Agent 對開放世界的主動探索、建立世界模型、Agent 技能庫等等。
此外,AI Agent 驅動的個人助理具有巨大的社會價值,例如幫助肢體受限的人群使用電腦,減少人類重複的數位勞動以及普及電腦教育等。在未來,或許不是每個人都能成為像鋼鐵人那樣的超級英雄,但我們都可能擁有一位專屬的賈維斯,一位可以陪伴、輔助和指導我們的智能夥伴,為我們的生活和工作帶來更多便利與可能。
以上がWindows や Office を直接使い始めることができ、大規模なモデル エージェントを使用したコンピューターの操作は非常に簡単です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。