지능형 에이전트의 '자기 진화' 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시

PHPz
풀어 주다: 2024-06-13 18:25:27
원래의
376명이 탐색했습니다.
지능형 에이전트의 자기 진화 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시
AIxiv 칼럼은 본 사이트에 학술적, 기술적 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

AI 일반 지능의 자체 진화 능력은 한계가 없습니다.

LLM 기반 에이전트는 더 이상 인간 감독자의 도움이 필요하지 않으며 "자기 진화"를 달성하기 시작합니다!

이 에이전트는 전문가 궤적을 학습한 후 기본적인 일반 능력을 습득하고, 더 넓고 현실적인 미지의 환경과 작업을 탐색하고 학습할 수 있으며, 외부 피드백을 통해 지속적으로 개선됩니다.

최근 복단대학교 언어비전팀이 출시한 AgentGym 플랫폼은 대규모 언어 모델을 위한 "데이터 샘플링, 훈련 미세 조정, 자기 진화 및 능력 평가"의 전 과정을 공개했습니다. 자치령 대표. 본 플랫폼에서 제안하는 AgentEvol 알고리즘을 기반으로 일반 에이전트의 자체 진화 능력을 최초로 탐색했으며, GPT-4, SOTA 모델과 비교할 수 없을 정도로 다양한 에이전트 작업에서 탁월한 성능을 발휘했습니다. 클로드.

지능형 에이전트의 자기 진화 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시

  • 문서 링크: https://arxiv.org/abs/2406.04151
  • AgentGym 코드 저장소: https://github.com/WooooDyy/AgentGym

연구 배경

복잡한 작업을 해결하고 적응할 수 있는 다중 작업 범용 에이전트를 개발하는 것은 오랫동안 인공지능 커뮤니티의 중요한 목표였습니다.

인간의 학습 과정과 유사하게 범용 에이전트가 먼저 모방을 통해 가장 기본적인 지식과 기술을 배우기 시작합니다.

기본 기능을 숙달하면 에이전트가 다양한 환경과의 상호 작용을 통해 이전에 볼 수 없었던 많은 작업을 지속적으로 학습하고 적응할 수 있을 뿐만 아니라자체 경험과 외부 피드백을 통해 학습할 수 있을 것으로 기대합니다 풍부 지혜를 얻으려면 어느 정도 일반화 능력을 키워야 합니다(그림 1).

지능형 에이전트의 자기 진화 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시

그림 1: "자기 진화"를 구현하는 기본 범용 에이전트의 개략도. 에이전트는 먼저 인간의 감독하에 행동 복제를 수행한 다음 다양한 외부 환경과 작업을 탐색하고 학습하여 자기 진화를 달성합니다.

뛰어난 일반 기능을 갖춘 대규모 언어 모델은 이러한 지능형 에이전트를 구축하는 데 중요한 기반 중 하나로 간주됩니다. 현재 연구 영역은 에이전트 기술의 추가 개발을 추진하기 위해 두 가지 주요 방향에 따라 탐색되고 있습니다.

  • 사람의 감독에 의존하는 행동 복제 방법에서는 에이전트가 전문가가 제공하는 궤적 데이터를 점차적으로 모방해야 합니다. 이 방법은 효과적이지만 주석 리소스의 한계로 인해 확장이 어렵습니다. 환경 탐색도 상대적으로 제한적이며 성능 또는 일반화 병목 현상이 발생하기 쉽습니다.
  • 에이전트가 환경 피드백을 기반으로 지속적으로 역량을 향상할 수 있는 자체 개선 방법은 인간 감독에 대한 의존도를 줄이는 동시에 환경 탐색의 깊이를 풍부하게 합니다. 그러나 그들은 일반적으로 특정 작업의 고립된 환경에서 훈련을 받기 때문에 효과적으로 일반화할 수 없는 전문 에이전트 배치가 됩니다.
위의 과제에 직면한 저자는 다양한 환경과 작업에서 자체 진화할 수 있는 기본 기능을 갖춘
범용 에이전트의 잠재력을 처음으로 탐색합니다.
이 연구 목표를 달성하기 위해 저자는 지능형 에이전트의 자기 진화를 촉진하는 "세 가지 핵심 기둥"을 식별했습니다. 이 기둥은 연구의 핵심 요소입니다.

다양한 환경과 작업을 통해 에이전트는 고립된 환경에 국한되지 않고 역동적이고 포괄적으로 상호 작용하고 훈련할 수 있습니다.
  • 적절한 크기의 궤적 데이터 세트는 에이전트가 기본 지침 추종 능력과 기본 작업 지식을 갖추는 데 도움이 됩니다.
  • 다양한 어려움의 환경에서 에이전트의 일반화 능력을 자극하는 효과적이고 확장 가능한 진화 알고리즘입니다.
  • 그림 2: AgentGym 플랫폼의 개략도. 이 플랫폼은 다양한 범주에 걸쳐 총 14개의 환경을 포괄하며 각각은 HTTP 서비스로 배포됩니다. 클라이언트는 에이전트가 환경과의 상호 작용을 용이하게 하기 위해 캡슐화된 통합 인터페이스를 제공합니다. AgentEvol 방법을 통해 저자는 다양한 환경과 작업에서 에이전트의 자체 진화를 탐구합니다. 또한 플랫폼은 에이전트의 포괄적인 능력 평가를 수행하기 위해 테스트 세트 AgentEval을 제공합니다.

    세 가지 기둥을 중심으로 저자의 연구 작업은 다음과 같은 측면에 반영됩니다.

    • "AgentGym", 14가지 특정 환경과 89가지 특정 작업 유형을 포함하는 애플리케이션 대화형 플랫폼(그림 2)은 대규모 언어 모델 에이전트 교육을 지원합니다. 이 플랫폼은 HTTP 서비스를 기반으로 하며 다양한 환경에 대한 통합 API 인터페이스를 제공하여 궤적 샘플링, 다단계 상호 작용, 온라인 평가 및 실시간 피드백을 지원합니다.
    • 도전적인 에이전트 테스트 벤치마크인 "AgentEval". "AgentTraj" 및 "AgentTraj-L"은 지침 강화 및 크라우드소싱/SOTA 모델 주석을 통해 구성된 전문가 궤적 데이터 세트입니다. 형식 통일 및 데이터 필터링 후 상담원이 기본적이고 복잡한 작업 해결 능력을 배울 수 있도록 도와줍니다.
    • "AgentEvol"은 환경 전반에 걸쳐 에이전트의 자체 진화를 자극하는 새로운 알고리즘입니다. 이 알고리즘의 동기는 에이전트가 이전에 볼 수 없었던 작업과 지침에 직면했을 때 자율 탐색을 수행하고 새로운 경험을 통해 학습하고 최적화할 것을 기대하는 것입니다.

    AgentGym 플랫폼은 대규모 언어 모델 에이전트 궤적 샘플링, 자체 진화 및 능력 평가를 지원하는 새로운 프레임워크로 다양한 실시간 동시 및 통합 형식 피드백을 제공하는 것이 특징입니다. 인공지능 커뮤니티가 일반적인 기능을 갖춘 LLM 기반 에이전트를 보다 편리하게 탐색할 수 있도록 돕는 것을 목표로 합니다.

    AgentGym - 대화형 교육 및 평가를 위한 통합 에이전트 플랫폼

    AgentGym은 여러 환경, 풍부한 궤적 데이터 및 포괄적인 벤치마크 테스트를 통합합니다. 통합 환경 운영 인터페이스를 통해 환경 구성 프로세스를 단순화합니다. 구체적으로 AgentGym에는 다음과 같은 기능이 있습니다.

    다양한 환경:

    AgentGym에는 웹 탐색, 단어 게임, 구체화된 제어, 도구 사용 및 코드 범주를 다루는 14개의 환경과 89개의 작업이 포함되어 있습니다. 작업별 에이전트를 구축하는 데 전념하든 범용 에이전트를 구축하든 AgentGym 프레임워크는 해당 지원을 제공할 수 있습니다.

    그 중 각 환경은 독립적으로 배포되어 서로 다른 환경 간의 종속성 충돌을 피하고 플랫폼의 확장성을 보장합니다. 예를 들어, 온라인 쇼핑 작업을 위한 대화형 플랫폼인 WebShop 환경은 단 한 줄의 명령만으로 쉽게 배포할 수 있습니다.

    데이터 중심:

    AgentGym의 궤적 데이터는 "생각-행동" 쌍을 통해 추론 단계와 동작 시퀀스를 결합하는 통합 ReAct 형식을 채택합니다. 그림 2의 왼쪽 상단은 예를 제공합니다. 궤적 데이터.

    플랫폼은 명령어의 광범위한 수집 및 개선을 통해 20509 명령어 세트를 구축했으며, 그 중에서 다양성을 갖춘 1160개의 명령어를 선택하여 LLM 에이전트 기반 종합 평가를 위한 벤치마크 테스트 세트 AgentEval을 구축했습니다.

    동시에 저자는 GPT-4-Turbo와 크라우드소싱 주석을 사용하여 궤적 데이터를 수집하고 보상이나 정확성을 기준으로 엄격하게 필터링하여 6130 고품질 궤적 모음인 AgentTraj를 구축했습니다. 행동 복제 방법의 성능 잠재력을 입증하기 위해 연구원들은 이를 더욱 확장하여 14485 궤적을 포함하는 AgentTraj-L을 얻었습니다.

    지능형 에이전트의 자기 진화 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시

    ㅋㅋ ~                                                   .
    모듈형 아키텍처 및 효율적인 파이프라인:
    AgentGym 플랫폼은 모듈형 설계를 채택하므로 개발자는
    환경을 쉽게 추가하거나 변경할 수 있습니다
    . 환경은
    HTTP 서비스
    를 통해 유연하고 효율적인 상호 작용을 달성하기 위해 다양한 서버(EnvServer)에 배포됩니다. 클라이언트(EnvClients)는 환경과 상호 작용하고 해당 작업 인터페이스를 제공하는 데 필요한 기능을 캡슐화합니다.
    핵심 구성 요소인 AgentController는 에이전트와 환경 사이의 중개자 역할을 하며 에이전트 전략을 최적화하는 트레이너(Trainer)와 여러 환경을 지원하는 성능 평가기(Evaluator)를 제공합니다. 통합 운영 인터페이스는 에이전트와 환경 간의 상호 작용을 단순화하여 사용자가 알고리즘 최적화 및 에이전트 교육에 집중할 수 있도록 합니다. 그림 4: AgentGym 플랫폼 아키텍처 개요.

    지능형 에이전트의 자기 진화 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시독특한 장점:

    다른 프레임워크와 비교하여 AgentGym의 장점은 광범위한 환경 컬렉션을 제공할 뿐만 아니라 실시간 환경 피드백을 제공한다는 것입니다. 에이전트는 대화형 플랫폼
    을 통해 지능형 에이전트의 교육 및 평가를 지원합니다. 동시에 AgentGym은 여러 환경에서 에이전트의 "포괄적인 진화"를 지원하여 에이전트의 일반화 능력을 크게 향상시키고 다양한 작업과 환경에서 잘 수행할 수 있도록 합니다. 그림 5: AgentGym과 다른 에이전트 프레임워크의 비교.

    AgentEvol - 일반 에이전트 진화 알고리즘
    AgentGym 제품군을 기반으로 연구자는 에이전트를 쉽게 샘플링하고 훈련하고 평가할 수 있습니다. 범용 에이전트의 "자기 진화" 잠재력을 탐색하기 위해 Fudan 언어 및 비전 팀은 에이전트가 여러 환경과 작업에서 능력을 향상시키는 데 도움이 되는 AgentEvol 알고리즘(그림 6)을 제안했습니다. 이 알고리즘의 핵심 아이디어는 특히 이전에 보지 못했던 작업과 지시에 직면했을 때 에이전트가 탐색과 학습을 통해 성능을 향상시킬 수 있도록 하는 것입니다.

    지능형 에이전트의 자기 진화 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시

    ~ 일반 에이전트(기본적으로 일반적으로 수행할 수 있는 에이전트)이므로 기본 지침을 따르는 능력과 필요한 사전 지식을 갖습니다. 이 과정에서 에이전트는 사고 과정(생각)과 행동(행동)을 포함하여 전문가의 궤적을 단계별로 모방합니다.
    이 기본 일반 지능형 에이전트는 다양한 환경과 상호 작용하며 자체 진화를 완료합니다. 다양한 환경에서 더욱 다양한 지시와 질문에 직면하고 다양한 작업을 완료하는 능력이 점차 향상됩니다.

    이 프로세스는 대화형 강화 학습을 확률적 추론 문제로 처리하는 기계 학습의 추론 방법인 RL에서 영감을 받았습니다(구체적인 파생 및 설명은 원본 참조). 이 방법은 기존 강화 학습 방법과 달리 기대 수익을 최대화하는 궤적을 직접 찾는 것이 아니라 먼저 궤적에 대한 최적의 정책 분포를 정의한 다음 반복 프로세스를 통해 이 분포를 최적화합니다.

    특히 프로세스에는 두 가지 교대 단계가 포함됩니다.

    "탐색 ​​단계
    ": 이 단계에서 에이전트는 현재 전략 하에서 현재 전략과 상호 작용합니다. 환경은 상호 작용하여 새로운 궤적을 생성하고 보상을 평가하여 추정된 최적의 정책 분포를 형성합니다. 특히 에이전트는 여러 환경과 상호 작용하고 일련의 행동 궤적을 생성합니다. 각 궤적은 에이전트의 사고, 에이전트의 행동, 환경 관찰을 포함하여 현재 전략에 따른 에이전트와 환경 간의 상호 작용의 산물입니다. 그런 다음 환경은 궤적과 작업 목표 간의 일치 정도에 따라 각 궤적에 보상 신호를 제공합니다.
    Learning Step
    』: 이 단계에서는 에이전트가 추정된 최적 전략 분포를 기반으로 매개변수를 업데이트하여 최적 전략에 더 가깝게 만듭니다. 구체적으로, 에이전트는 탐색 단계에서 수집된 궤적 및 보상 데이터를 사용하여 궤적 보상 가중치에 따른 최적화 목적 함수를 통해 자신을 최적화합니다. 학습 단계에서 과적합을 줄이기 위해 저자는 항상 이전 최적화 라운드에서 얻은 에이전트가 아닌 "기본 일반 에이전트"를 최적화합니다.
    • AgentEvol 알고리즘은 탐색 단계와 학습 단계를 교대로 수행함으로써 에이전트를 점진적으로 최적화하고, 여러 환경에서 능력을 크게 향상시키며, "자기 진화"라는 목표를 달성합니다.
    • 실험 소개

    작업 개요:

    이 연구에서는 AgentGym 프레임워크를 통해 에이전트에 대한 일련의 환경 간 탐색 및 진화 실험을 수행했습니다. 이 실험의 목표는
    다양한 환경
    에서 기본 에이전트가 자체 탐색하고 진화하는 능력을 평가하는 것입니다. 이를 위해 저자는 에이전트의 탐색 공간을 확장하기 위해 더 넓은 지침 세트를 채택합니다.
    주요 결과:

    11개의 서로 다른 환경에서 AgentTraj 데이터 세트
    를 사용하여 훈련된 에이전트는 우수한 기본 상호 작용 기능을 보여주었습니다.

    또한 더 큰 규모의 AgentTraj-L 데이터 세트에 행동 복제를 구현함으로써 에이전트 는 상당한 성능 향상을 달성했습니다.

    이 기사에서 제안하는 AgentEvol 방법은 초기 단계에서는 지능형 에이전트의 자기 진화 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시 제한된 전문가 데이터
    만을 기반으로 하지만
    교대적인 탐색 및 학습 단계
    를 통해 에이전트는 보이지 않는 탐색 세트에 대해 올바른 결정을 내릴 수 있습니다. 결정하고 자기 진화를 실현합니다. 여러 에이전트 작업에서 AgentEvol 메서드는
    및 기타 SOTA 모델을 능가합니다.
    지능형 에이전트의 자기 진화 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시

    이 발견은 보다 복잡한 작업에 적응하고 해결할 수 있는 에이전트의 잠재력을 보여줌으로써 보다 발전된 범용 에이전트 개발을 위한 견고한 기반을 제공합니다.
    그림 7: 다중 작업 환경에서 다양한 모델과 에이전트의 성능 비교 네 가지 각도에서 펼쳐진 일련의 제거 실험: (1) 데이터 병합 전략(2) 진화 반복 횟수(3) 탐색 범위; 샘플링의.
    실험에 따르면 에이전트가 현재 생성한 궤적을 초기 전문가 궤적 세트와 병합하면 보다 안정적인 성능 향상을 가져올 수 있는 것으로 나타났습니다. 이에 따라 이전 반복의 탐색 궤적을 사용하면 과적합 및 성능 변동이 발생할 수 있습니다.

    진화 과정에서 반복 횟수 M이 증가할수록 성능은 향상되지만 결국 안정화되어 수렴하게 됩니다. ㅋㅋㅋ 생성하다
    다양한 궤적 을 통해 지능형 에이전트 학습을 촉진합니다.

    에이전트의 탐색 범위를
    알려진 명령어 세트
    , 즉
    제한된 공간
    으로 제한하면 AgentEvol의 성능이 더 이상 향상되지 않을 수 있습니다.目 그림 9: 샘플링 수와 탐사 범위에 대한 절제 실험

    또한 연구원들은 다양한 기본 모델에서도 실험했습니다. 결과는 AgentEvol 메소드가 다양한 크기의 모델에서 잘 수행된다는 것을 보여줍니다. ㅋㅋㅋ ~         
    성공과 실패의 경험이 모두 변화를 가져올 수 있을까요
    .

    지능형 에이전트의 자기 진화 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시

    실험에서는 탐색 과정에서 '성공-실패' 궤적을 기반으로 학습되는 Direct Preference Optimization DPO(Direct Preference Optimization) 방법을 사용합니다. 결과는 에이전트가 다중 작업 시나리오의 오류 경험을 통해 학습할 수 있지만 전반적인 성능은 여전히 ​​AgentEvol 방법보다 열등하다는 것을 보여줍니다.

                                                                                                                                           창설된 우리나라 최초의 자연어 개발 프로젝트로, 처리 및 정보 검색 연구를 위한 연구실 중 하나입니다. 중국 국립 자연 과학 재단, 국가 863/973/핵심 R&D 프로그램, 성 부처 및 위원회 자금의 지원으로 수많은 고급 국제 저널과 컨퍼런스 논문이 출판되었습니다. 학계 리더인 Huang Xuanjing 교수의 지도 하에 연구소는 언어 대형 모델, 다중 모드 대형 모델, 대형 모델 정렬, 지능형 에이전트 등의 측면에서 대형 모델의 개척에 대해 체계적이고 심층적인 연구를 수행하여 MOSS를 탄생시켰습니다. , Moosi 등 학술적 영향력이 크고 국내외 유수 과학기술 기업과 긴밀한 협력 관계를 맺고 있는 일련의 작품입니다.
    푸단대학교 비전 및 학습 연구소는 Jiang Yugang 교수가 설립했습니다. 현재 교사 7명, 석사 및 박사 과정 학생 80명, 대학원생 30명이 있습니다.
    이 연구실은 주로 컴퓨터 비전 및 다중 모드 인공 지능의 이론과 응용에 관한 연구를 수행합니다.
    기계가 인간처럼 학습하고 인식하고 추론할 수 있도록 정확하고 빠르며 확장 가능하며 신뢰할 수 있는 AI 알고리즘을 개발하는 것을 목표로 합니다. . 연구소는 과학 기술 혁신 2030 - "신세대 인공 지능" 주요 프로젝트, 중국 국가 자연 과학 재단 핵심 기금, 국가 핵심 R&D 계획 프로젝트, 상하이 과학 및 과학 기술 혁신과 같은 중요한 국가 및 지역 과학 연구 프로젝트를 수행했습니다. 기술 혁신 실행 계획 등은 물론 Huawei, Tencent, Baidu 등 기업의 기술 연구 요구 사항도 포함됩니다.

위 내용은 지능형 에이전트의 '자기 진화' 전체 과정을 열어보세요! Fudan, 범용 지능형 신체 플랫폼 AgentGym 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!