GPT-4의 사고방식은 점점 인간과 유사해지고 있습니다.
인간은 실수를 하면 다시 실수하지 않기 위해 자신의 행동을 반성하게 됩니다. GPT-4와 같은 대형 언어 모델에도 반성 능력이 있다면 그만큼 성능이 향상될 것입니다.
대형 언어 모델(LLM)이 다양한 작업에서 전례 없는 성능을 보여준 것은 잘 알려져 있습니다. 그러나 이러한 SOTA 방법에는 일반적으로 정의된 상태 공간에 대한 모델 미세 조정, 정책 최적화 및 기타 작업이 필요합니다. 고품질 훈련 데이터와 잘 정의된 상태 공간이 부족하기 때문에 최적화된 모델을 구현하는 것은 여전히 어렵습니다. 더욱이, 모델은 아직 인간의 의사결정 과정에 내재된 특정 특성, 특히 실수로부터 학습하는 능력을 갖추고 있지 않습니다.
그러나 최근 노스이스턴 대학교, MIT 및 기타 기관의 연구자들은 최근 논문에서 에이전트에 동적으로 기억하고 자기 성찰할 수 있는 능력을 부여하는 Reflexion을 제안했습니다.
방법의 유효성을 검증하기 위해 본 연구에서는 AlfWorld 환경에서 에이전트의 의사결정 작업을 완료하는 능력과 HotPotQA 환경에서 지식 집약적인 검색 기반 질문 및 답변 작업을 완료하는 능력을 평가했습니다. 이 두 작업의 성공률은 각각 97%와 51%입니다.
논문 주소: https://arxiv.org/pdf/2303.11366.pdf
프로젝트 주소: https://github.com/GammaTauAI/reflexion-human-eval
아래 그림과 같이, in AlfWorld 환경에는 방에 다양한 객체가 배치되어 있으며, 에이전트는 특정 객체를 얻기 위해 추론 계획을 제시해야 합니다. 아래 그림의 상단 부분은 에이전트의 비효율적인 계획으로 인해 실패합니다. 반성 후 에이전트는 오류를 인지하고 추론 궤적을 수정하며 간결한 궤적 방법을 제시한다(그림 하단).
잘못된 검색 전략에 대한 모델 반영:
이 문서에서는 GPT-4에 "왜 틀렸나요?"라는 질문을 통해 이 오류를 수정할 수 있음을 보여줍니다. 결과가 정확할 때까지 고려되어 GPT-4의 성능이 놀랍게도 30% 향상됩니다.
네티즌들은 한숨을 쉬지 않을 수 없습니다. 인공지능의 발전 속도가 우리의 적응 능력을 넘어섰습니다.
Reflexion 에이전트의 전체 아키텍처는 Reflexion이 ReAct를 활용하는 아래 그림 1에 표시됩니다(Yao et al., 2023). 첫 번째 시도에서는 에이전트에게 초기 쿼리를 구성하는 환경으로부터 작업이 주어지고, 에이전트는 LLM에서 생성된 일련의 작업을 수행하고 환경으로부터 관찰과 보상을 받습니다. 설명적이거나 지속적인 보상을 제공하는 환경의 경우 연구에서는 적용 가능성을 보장하기 위해 출력을 간단한 이진 성공 상태로 제한합니다.
각 액션 a_t 후에 에이전트는 아래 그림과 같이 휴리스틱 함수 h를 계산합니다.
이 휴리스틱 함수는 에이전트가 생성한 정보 환상(예: 거짓 또는 잘못된 정보)을 감지하도록 설계되었습니다. 또는 비효율적이며 에이전트가 반영(반사)해야 할 때 "알립니다". 여기서 t는 시간 단계, s_t는 현재 상태, Ω은 반복된 작업 주기 수, ε는 수행된 작업의 최대 총 수를 나타냅니다. a_o, o_0. , a_(t−1), o_(t−1)] 은 궤적 기록을 나타냅니다. 반복은 반복되는 작업의 루프가 동일한 결과를 생성하는 횟수를 결정하는 간단한 함수입니다.
함수 h가 에이전트에게 반영이 필요하다고 알리면 에이전트는 LLM에 쿼리하여 현재 작업, 궤적 기록 및 마지막 보상을 반영한 다음 에이전트는 환경을 재설정하고 후속 시도를 다시 시도합니다. 함수 h가 반영이 필요하다는 것을 에이전트에 알리지 않으면 에이전트는 궤적 기록에 a_t 및 o_t를 추가하고 LLM에 다음 작업을 쿼리합니다.
시간 단계 t에서 휴리스틱 h가 반영을 권장하는 경우 에이전트는 현재 상태 s_t, 마지막 보상 r_t, 이전 작업 및 관찰 [a_0, o_0, . 에이전트는 mem에 저장되어 반사 프로세스를 시작합니다.
반영의 목적은 시행착오를 통해 에이전트가 '환상'과 비효율성을 바로잡을 수 있도록 돕는 것입니다. 반영에 사용되는 모델은 특정 실패 궤적과 이상적인 반영 사례를 사용하여 프롬프트하는 LLM입니다.
에이전트는 위의 반영과정을 반복적으로 수행하게 됩니다. 실험에서는 LLM의 한계를 초과하는 쿼리를 방지하기 위해 에이전트 메모리에 저장되는 반사 횟수를 최대 3회까지 설정했습니다. 다음 상황에서 실행이 종료됩니다.
AlfWorld는 에이전트가 대상 작업을 이해하고 하위 작업에 대한 순차적 계획을 수립하며 주어진 환경에서 작업을 수행하도록 요구하는 6가지 작업과 3000개 이상의 환경을 제공합니다.
이 연구에서는 숨겨진 물건 찾기(예: 서랍에서 과일 칼 찾기), 물건 이동(예: 칼을 도마로 옮기기), 다른 물건을 사용하여 조작하는 등 134개의 AlfWorld 환경에서 에이전트를 테스트했습니다. 기타 개체 개체(예: 냉장고에 있는 토마토)
Reflection이 없을 경우 에이전트의 정확도는 63%이며, 비교를 위해 Reflexion을 추가합니다. 결과는 에이전트가 12번의 시도에서 환경의 97%를 처리할 수 있었고 134개의 작업 중 4개만 해결하지 못한 것으로 나타났습니다.
다음 실험은 HotPotQA에서 수행되었습니다. HotPotQA는 Wikipedia를 기반으로 한 데이터 세트이며 113,000개의 질문과 답변 쌍을 포함하고 있으며 주로 에이전트의 내용과 추론 능력을 분석하는 데 사용됩니다.
HotpotQA의 100개 질문-답변 쌍 테스트에서 연구에서는 기본 에이전트와 Reflexion 기반 에이전트가 연속 시도에서 정확도를 향상시키지 못할 때까지 비교했습니다. 결과는 첫 번째 시도에서 기본 에이전트의 정확도가 34%, Reflexion 에이전트의 정확도가 32%로 향상되지 않았음을 보여줍니다. 그러나 7번의 시도 후에는 Reflexion의 성능이 향상되었습니다. 개선 효과는 30%에 가까워 기본 에이전트보다 훨씬 뛰어납니다.
마찬가지로 Reflexion이 포함된 GPT-4는 모델의 코드 작성 능력을 테스트할 때 일반 GPT-4보다 성능이 훨씬 뛰어났습니다.
위 내용은 GPT-4가 자신의 실수를 반성했을 때: 성능이 약 30% 향상되었고, 프로그래밍 능력이 21% 향상되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!