핫페이퍼, '웨스트월드' 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

WBOY
풀어 주다: 2023-04-12 09:04:14
앞으로
822명이 탐색했습니다.

우리는 세상을 만들 수 있을까? 그 세계에서 로봇은 인간 사회의 모든 측면을 복제하면서 인간처럼 살고 일하고 사회화할 수 있습니다.

이러한 상상력은 영화 및 TV 작품 "웨스트월드"의 설정에서 완벽하게 복원되었습니다. 스토리라인이 미리 설치된 많은 로봇이 테마파크에 배치되고 인간처럼 행동할 수 있습니다. 본 것, 만난 사람, 내가 한 말. 매일 봇은 재설정되어 핵심 스토리라인으로 돌아갑니다.

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

여전히 "Westworld"에서 왼쪽의 캐릭터는 스토리라인이 사전 설치된 로봇입니다.

다시 상상력을 확장하세요. 오늘날 ChatGPT와 같은 대규모 언어 모델을 서구 세계의 주인으로 바꾸고 싶다면 어떻게 하시겠습니까?

최근 인기 논문에서 연구자들은 25명의 AI 에이전트가 마을에 거주하는 '가상 마을'을 성공적으로 구축했습니다. 그들은 복잡한 행동(예: 발렌타인 데이 파티 주최)에 참여할 수 있을 뿐만 아니라 이러한 행동도 가능했습니다. 인간의 역할 연기보다 더 현실적입니다.

  • 문서 링크: https://arxiv.org/pdf/2304.03442v1.pdf
  • 데모 주소: https://reverie.herokuapp.com/arXiv_Demo/

The Sims와 같은 샌드박스 게임부터 인지 모델 및 가상 환경과 같은 애플리케이션에 이르기까지 연구자들은 40년 넘게 믿을 수 있는 인간 행동이 가능한 에이전트 생성을 구상해 왔습니다. 이러한 시나리오에서 컴퓨팅 기반 에이전트는 과거 경험에 따라 일관되게 행동하고 환경에 믿을 수 있게 반응합니다. 인간 행동에 대한 이러한 시뮬레이션은 가상 공간과 커뮤니티를 실제 사회 현상으로 채우고, 드물지만 어려운 대인 관계를 다루도록 "사람"을 훈련하고, 사회 과학 이론을 테스트하고, 이론 및 유용성 테스트를 위한 인간 프로세서 모델을 생성하고, 유비쿼터스 컴퓨팅 애플리케이션을 제공할 수 있습니다. 소셜 로봇 역학은 NPC 캐릭터가 오픈 월드에서 복잡한 인간 관계를 탐색할 수 있는 기반을 마련할 수도 있습니다.

하지만 인간 행동의 공간은 거대하고 복잡합니다. 대규모 언어 모델은 단일 시점에서 믿을 수 있는 인간 행동을 시뮬레이션할 수 있지만 장기적인 일관성을 보장하기 위해 범용 에이전트에는 시간이 지남에 따라 새로운 상호 작용, 갈등 및 이벤트가 발생하고 발생함에 따라 늘어나는 기억을 관리할 수 있는 아키텍처가 필요합니다. 페이드되는 동시에 여러 에이전트 간에 펼쳐지는 계단식 사회 역학도 처리합니다.

방법이 장기간에 걸쳐 관련 이벤트와 상호 작용을 검색할 수 있다면 이러한 기억을 반성하고 일반화하고 더 높은 수준의 추론을 도출하고 이 추론을 적용하여 현재와 장기적으로 더 나은 이해를 만들 수 있다면 지능형 에이전트가 계획과 반응을 통해 의미 있게 행동하면 꿈의 실현이 멀지 않습니다.

이 새로운 논문에서는 생성 모델을 사용하여 믿을 수 있는 인간 행동을 시뮬레이션하는 에이전트 유형인 "생성 에이전트"(생성 에이전트)를 소개하고, 이것이 믿을 수 있는 개인 및 창발적 그룹 행동을 생성할 수 있음을 입증합니다. 시뮬레이션:

  • 자신, 다른 행위자 및 환경에 대해 광범위한 추론을 하는 능력
  • 자신의 특성과 경험을 반영하는 일일 계획을 세우고, 해당 계획을 실행하고, 적절할 때 대응하는 능력
  • 능력; 최종 사용자가 환경을 변경할 때 반응하거나 자연어로 명령합니다.

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

"생성 에이전트" 뒤에는 관련 메모리를 저장, 합성 및 적용할 수 있고 대규모 언어 모델을 사용하여 신뢰할 수 있는 동작을 생성할 수 있는 새로운 에이전트 아키텍처가 있습니다.

예를 들어, "생성 에이전트"는 아침 식사가 타는 것을 보면 스토브를 끄고, 화장실에 누군가가 있으면 밖에서 기다리며, 대화하고 싶은 다른 에이전트를 만나면 멈춰서 이야기를 나눕니다. . "생성적 행위자(Generative Agents)"로 가득 찬 사회는 새로운 관계가 형성되고, 정보가 확산되며, 행위자 간에 조정이 발생하는 새로운 사회적 역학으로 특징지어집니다.

특히 연구원들은 이 논문에서 몇 가지 중요한 세부 사항을 발표했습니다.

  • 생성 에이전트는 에이전트의 변화하는 경험과 환경을 기반으로 하는 신뢰할 수 있는 인간 행동 시뮬레이션입니다.
  • 생성 에이전트가 다른 에이전트를 기억하고, 검색하고, 반영하고, 상호 작용하고, 역동적으로 진화하는 환경을 계획할 수 있게 해주는 새로운 아키텍처입니다. 아키텍처는 대규모 언어 모델의 강력한 프롬프트 기능을 활용하고 이러한 기능을 보완하여 에이전트의 장기적인 일관성, 동적 진화를 관리하는 메모리 기능, 더 많은 세대를 반복적으로 생성하도록 지원합니다. -end) 아키텍처의 다양한 구성 요소의 중요성에 대한 인과 관계를 결정하고 부적절한 메모리 검색 등으로 인한 실패를 식별합니다.
  • 대화형 시스템 및 윤리적, 사회적에서 생성 에이전트의 기회에 대해 논의합니다. 위험. 연구원들은 이러한 에이전트가 사용자가 기생적인 사회적 관계를 형성하는 위험을 완화하도록 조정되고, 딥페이크 및 맞춤형 설득으로 인한 위험을 완화하도록 문서화되고, 인간의 이익을 대체하기보다는 보완하도록 설계되어야 한다고 믿습니다.
  • 해당 글은 공개되자마자 인터넷상에서 뜨거운 논의를 불러일으켰습니다. 이미 "AutoGPT"의 방향에 대해 낙관적이었던 Karpathy는 "Generative Agents"가 이전 개념으로 플레이했던 "Open World"보다 조금도 나을 것이 없다고 거듭 칭찬하고 믿었습니다.

일부 연구자들은 이 연구의 발표가 "대규모 언어 모델이 새로운 이정표를 달성했습니다"라고 주장하기도 했습니다. 핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

"생성 에이전트" 동작 및 그들의 상호 작용

"생성 에이전트"를 더욱 구체적으로 만들기 위해 이 연구는 샌드박스 세계 역할로 인스턴스화합니다.

25명의 요원이 스몰빌이라는 작은 마을에 살고 있으며, 각 요원은 간단한 아바타로 대표됩니다. 모든 캐릭터는

다른 사람 및 환경과 소통할 수 있습니다.

  • 자신이 행하고 관찰한 일을 기억하고 회상합니다.
  • 이러한 관찰을 반영합니다.
  • 연구원들은 자연어를 사용하여 각 에이전트의 직업, 다른 에이전트와의 관계 등 각 에이전트의 신원을 설명하고 이 정보를 시드 메모리로 저장했습니다. 예를 들어 John Lin 상담원은 다음과 같은 설명을 가지고 있습니다(이 기사에서 발췌):

"John Lin은 다른 사람들을 돕는 것을 좋아하는 약국 주인입니다. 그는 항상 고객이 쉽게 구매할 수 있는 방법을 찾고 있습니다. John Lin 그의 아내는 대학 교수인 Mei Lin이며 음악 이론을 연구하는 아들 Eddy Lin과 함께 살고 있습니다. John Lin은 옆집의 노부부인 Sam Moore와 Jennifer Moore를 매우 사랑합니다. , 몇 년 동안..."핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

아이덴티티가 설정된 후 다음 단계는 에이전트가 세상과 상호 작용하는 방식입니다.

샌드박스의 각 단계에서 에이전트는 "이사벨라 로드리게스가 일기를 쓰고 있습니다", "이사벨라 로드리게스가 이메일을 확인하고 있습니다" 등과 같은 현재 작업을 설명하는 자연어 명령문을 출력합니다. 이러한 자연어는 샌드박스 세계에 영향을 미치는 구체적인 동작으로 변환됩니다. 작업은 작업의 추상적 표현을 제공하는 이모티콘 세트로 샌드박스 인터페이스에 표시됩니다.

이를 달성하기 위해 연구에서는 작업을 각 에이전트 아바타 위의 대화 상자에 나타나는 이모티콘 세트로 변환하는 언어 모델을 사용합니다. 예를 들어, "이사벨라 로드리게스가 일기를 쓰고 있습니다."는 로 표시되고, "이사벨라 로드리게스는 이메일을 확인하고 있습니다."는 로 표시됩니다. 또한 에이전트 아바타를 클릭하면 전체 자연어 설명에 액세스할 수 있습니다.

에이전트들은 자연어를 사용하여 서로 소통합니다. 주변에 다른 에이전트가 있다는 것을 알게 되면 직접 가서 채팅을 할지 고민하게 됩니다. 예를 들어 Isabella Rodriguez와 Tom Moreno는 다가오는 선거에 대해 다음과 같이 대화했습니다.

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

또한 사용자는 에이전트 중 한 명을 리포터로 지정하는 경우 에이전트의 역할을 지정할 수도 있습니다. 상담원이 뉴스 콘텐츠에 대해 문의할 수 있습니다.

에이전트와 환경의 상호 작용

스몰빌 마을에는 카페, 바, 공원, 학교, 기숙사, 주택, 상점 등 공공 장소가 많이 있습니다. 또한 각 공개 장면에는 집의 주방, 주방의 스토브와 같은 고유한 기능과 개체도 포함됩니다(그림 2). 지능형 에이전트의 생활 공간에는 침대, 테이블, 옷장, 선반, 욕실, 주방도 있습니다.

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

에이전트는 스몰빌에서 이동하고, 건물에 들어가거나 나갈 수 있으며, 앞으로 이동하고, 다른 에이전트에게 접근할 수도 있습니다. 에이전트의 움직임은 Generative Agents의 아키텍처와 샌드박스 게임 엔진에 의해 제어됩니다. 모델이 에이전트에게 특정 위치로 이동하도록 지시하면 연구는 Smallville 환경에서 목적지까지의 도보 경로를 계산하고 에이전트는 움직이기 시작합니다.

또한 사용자와 에이전트는 환경에 있는 다른 개체의 상태에도 영향을 미칠 수 있습니다. 예를 들어 에이전트가 잠잘 때 침대가 점유되어 있고 에이전트가 아침 식사를 마쳤을 때 냉장고가 비어 있을 수 있습니다. 최종 사용자는 자연어를 통해 에이전트 환경을 다시 작성할 수도 있습니다. 예를 들어, 이사벨라가 화장실에 들어갈 때 사용자는 샤워기 상태를 물이 새는 것으로 설정하고, 그러면 이사벨라는 거실에서 도구를 찾아 물이 새는 문제를 해결하려고 노력할 것입니다.

에이전트의 하루

설명을 시작으로 에이전트는 하루의 생활을 계획하기 시작합니다. 샌드박스 세계에서는 시간이 지남에 따라 에이전트의 행동이 서로, 세계, 그리고 그들이 구축한 기억과 상호 작용하면서 점차 변화합니다. 아래 사진은 약국 주인 John Lin의 하루를 보여줍니다.

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

이 가족에서 John Lin은 아침 7시에 가장 먼저 일어나 이를 닦고, 샤워를 하고, 옷을 입고, 아침을 먹고, 식탁에서 뉴스를 검색합니다. 거실. 오전 8시에 John Lin의 아들 Eddy도 일어나 수업 준비를 했습니다. 그가 떠나기 전에 그는 John과 대화를 나눴습니다.

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

Eddy가 출발한 직후 그의 어머니 Mei도 잠에서 깨어나 아들에 대해 물었습니다. 그는 다음과 같은 대화를 나눴습니다

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

사회적 기술

또한 "생성 에이전트"에서도 사회적 행동의 출현을 보여줍니다. 스몰빌 환경에서는 "생성 에이전트"가 서로 상호 작용하여 정보를 교환하고 새로운 관계를 형성합니다. 이러한 사회적 행동은 자연스럽고 미리 결정된 것이 아닙니다. 예를 들어, 에이전트가 상대방의 존재를 인지하면 대화가 이루어질 수 있고, 대화 정보가 에이전트 간에 전파될 수 있다.

몇 가지 예를 살펴보겠습니다.

정보 전파. 에이전트가 서로를 알아차리면 대화에 참여할 수 있습니다. 이렇게 하면 정보가 한 에이전트에서 다른 에이전트로 전파될 수 있습니다. 예를 들어, 식료품점에서 Sam과 Tom이 나누는 대화에서 Sam은 Tom에게 지역 선거 출마에 대해 이야기합니다. 뉴스, Tom과 John이 Sam의 선거 승리 가능성에 대해 논의:

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

점차적으로 Sam의 입후보가 마을의 화제가 되었고 일부는 그를 지지했고 다른 일부는 결정되지 않았습니다. 핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

관계 기억. 시간이 지남에 따라 마을의 에이전트는 새로운 관계를 형성하고 다른 에이전트와의 상호 작용을 기억합니다. 예를 들어, Sam은 처음에 Latoya Williams를 몰랐습니다. Johnson Park를 산책하는 동안 Sam은 Latoya를 만나 서로 소개했습니다. Latoya는 자신이 사진 프로젝트를 진행하고 있다고 언급했습니다. "다음 대화에서 Sam은 제가 작업하고 있는 프로젝트를 위해 사진을 찍기 위해 여기에 왔습니다." Latoya는 Sam이 "Latoya, 프로젝트는 잘 진행되고 있나요?"라고 묻자 이 이벤트에 대한 기억을 보여주었습니다. Latoya는 "잘 진행되고 있습니다!"라고 답했습니다. Hobbs Cafe를 운영하는 Isabella Rodriguez는 2월 14일 오후 5시부터 7시까지 발렌타인 데이 파티를 주최합니다. 이 씨앗에서 Isabella Rodriguez는 Hobbs Cafe나 다른 곳에서 친구와 고객을 만날 때 초대를 확장했습니다. 13일 오후, 이사벨라는 카페 장식을 시작했습니다. 이사벨라의 단골이자 절친한 친구인 마리아가 카페에 찾아온다. 이사벨라는 마리아에게 파티 ​​장식을 도와달라고 부탁하고 마리아는 이에 동의합니다. 마리아의 성격 설명은 클라우스를 좋아한다는 것입니다. 그날 밤, 마리아는 자신이 좋아하는 클라우스를 파티에 초대하고 클라우스는 기꺼이 이를 받아들입니다.

발렌타인 데이에는 Klaus와 Maria를 포함한 5명의 에이전트가 오후 5시에 Hobbs Cafe에 나타나 축하 행사를 즐겼습니다(그림 4). 이 시나리오에서 최종 사용자는 파티를 주최하려는 Isabella의 초기 의도와 Klaus에 대한 Maria의 열광만을 설정합니다. 정보 퍼뜨리기, 꾸미기, 서로 물어보기, 파티에 도착하기, 파티에서 상호 작용하는 사회적 행동은 다음에 의해 시작됩니다. 에이전트 아키텍처. 핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

Architecture

Generative Agents에는 생성 에이전트가 다른 에이전트와 상호 작용하고 환경 변화에 반응할 수 있도록 설계된 개방형 세계에서의 동작을 안내하는 프레임워크가 필요합니다.

생성 에이전트는 현재 환경과 과거 경험을 입력으로 사용하고 동작을 출력으로 생성합니다. 생성 에이전트의 아키텍처는 대규모 언어 모델과 관련 정보를 합성하고 검색하여 언어 모델의 출력을 규제하는 메커니즘을 결합합니다.

합성 및 검색 메커니즘이 없으면 대규모 언어 모델은 동작을 출력할 수 있지만 생성 에이전트는 에이전트의 과거 경험을 기반으로 응답하지 않아 중요한 추론이 불가능하고 오랫동안 유지하지 못할 수 있습니다. 용어 일관성. 현재 최고 성능의 모델(예: GPT-4)을 사용하더라도 장기 계획 및 일관성에 대한 과제는 여전히 남아 있습니다.

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

생성 에이전트는 유지해야 하는 많은 수의 이벤트와 메모리 스트림을 생성하기 때문에 아키텍처의 핵심 과제는 필요할 때 에이전트 메모리의 가장 관련성이 높은 부분을 검색하고 합성하도록 보장하는 것입니다.

Generative Agents의 아키텍처 중심은 에이전트의 경험을 종합적으로 기록하는 데이터베이스인 메모리 스트림입니다. 에이전트는 에이전트의 행동 행동을 계획하고 환경에 적절하게 대응하기 위해 메모리 스트림에서 관련 기록을 검색하며, 각 행동은 더 높은 수준의 행동 지침을 반복적으로 종합하기 위해 기록됩니다. 생성 에이전트 아키텍처의 모든 내용은 자연어 설명의 형태로 기록되고 추론되므로 에이전트는 대규모 언어 모델의 추론 기능을 활용할 수 있습니다.

현재 본 연구에서는 ChatGPT를 이용하여 gpt3.5-turbo 버전을 구현하고 있습니다. 연구팀은 생성 에이전트의 아키텍처 기반인 메모리, 계획, 반사가 변경되지 않을 것으로 예상합니다. 최신 언어 모델(예: GPT-4)은 표현력과 성능이 향상되어 생성 에이전트가 더욱 확장됩니다.

메모리 및 검색

Generative Agents의 아키텍처는 에이전트의 현재 상황을 입력으로 사용하고 메모리 스트림의 하위 집합을 반환하여 언어 모델에 전달하는 검색 기능을 구현합니다. 에이전트가 어떻게 행동할지 결정할 때 어떤 요소가 중요한지에 따라 검색 기능을 구현하는 방법은 다양합니다.

Reflection

이 연구는 또한 "반사"라고 불리는 두 번째 유형의 기억을 소개했습니다. 반사는 에이전트가 생성한 더 높은 수준의 추상적인 생각입니다. 반사는 주기적으로 발생합니다. 이 연구에서 에이전트는 최근 이벤트에 대한 중요도 점수의 합이 특정 임계값을 초과하는 경우에만 반영을 시작합니다.

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

실제로 연구에서 제안한 생성 에이전트는 하루에 2~3번 정도 반영되었습니다. 성찰의 첫 번째 단계는 에이전트의 최근 경험을 바탕으로 질문할 수 있는 질문을 식별하여 무엇을 성찰할지 결정하는 것입니다.

계획 및 반응

계획은 에이전트의 향후 작업 순서를 설명하는 데 사용되며 에이전트가 시간이 지남에 따라 일관된 동작을 유지하는 데 도움이 됩니다. 계획에는 위치, 시작 시간 및 기간이 포함되어야 합니다.

합리적인 계획을 만들기 위해 생성 에이전트는 위에서 아래로 더 많은 세부 정보를 반복적으로 생성합니다. 첫 번째 단계는 하루의 "일정"을 대략적으로 설명하는 계획을 만드는 것입니다. 초기 계획을 만들기 위해 연구에서는 에이전트에 대한 일반적인 설명(예: 이름, 특성, 최근 경험 요약 등)을 사용하여 언어 모델을 프롬프트합니다.

계획을 실행하는 과정에서 생성 에이전트는 주변 환경을 감지하고 감지된 관찰 내용은 메모리 스트림에 저장됩니다. 연구에서는 이러한 관찰을 사용하여 언어 모델이 에이전트가 현재 계획을 계속해야 하는지 아니면 다르게 반응해야 하는지 결정하도록 유도합니다.

실험 및 평가

이 연구는 생성 에이전트에 대해 두 가지 평가를 수행했습니다. 하나는 에이전트가 신뢰할 수 있는 개별 행동을 독립적으로 생성할 수 있는지 테스트하는 제어 평가이고, 다른 하나는 엔드투엔드 평가입니다. 에이전트의 안정성과 새로운 사회적 행동을 이해하기 위해 이틀 간의 게임 기간 동안 공개적으로 분석합니다.

예를 들어 이사벨라는 발렌타인데이 파티를 계획합니다. 그녀는 정보를 퍼뜨렸고 시뮬레이션이 끝날 때까지 12명의 캐릭터가 이에 대해 알게 되었습니다. 그들 중 7명은 "미정"이었습니다. 3명은 다른 계획이 있었고, 4명은 인간이 살아가는 방식과 마찬가지로 자신의 생각을 표현하지 않았습니다.

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

본 연구는 기술적 평가 수준에서 에이전트와 자연어를 '인터뷰'하여 '인격', 기억, 계획, 반응 및 정확한 반성을 유지하는 에이전트의 능력을 평가하고 절제 실험을 수행했습니다. 실험 결과에 따르면 이러한 각 구성 요소는 에이전트가 작업을 잘 수행하는 데 매우 중요합니다.

핫페이퍼, 웨스트월드 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장

실험 평가에서 에이전트가 저지르는 가장 일반적인 실수는 다음과 같습니다.

  • 관련 기억 검색 실패
  • 에이전트 메모리 위조
  • "언어 모델에서 상속됨" 또는 행동.

관심 있는 독자는 논문 원문을 읽고 더 많은 연구 세부 사항을 알아볼 수 있습니다.

위 내용은 핫페이퍼, '웨스트월드' 프로토타입 제작: 25명의 AI 에이전트가 가상 마을에서 자유롭게 성장의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿