ACL 2024｜PsySafe: 학제간 관점에서 본 에이전트 시스템 보안 연구-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에 학술적, 기술적 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사는 상하이 인공 지능 연구소가 대련 공과 대학 및 중국 과학 기술 대학과 협력하여 작성했습니다. 교신저자: 홍콩 중문대학교 멀티미디어 연구실 MMLab 박사 학위를 취득한 Shao Jing은 현재 푸장 국립 연구소의 대형 모델 보안 팀장을 맡아 대형 모델 보안 신뢰성에 대한 연구를 이끌고 있습니다. 평가 및 가치정렬 기술. 제1저자: 대련공과대학 박사과정 2년차 Zhang Zaibin, 대형 모델 보안 및 에이전트 보안 분야 연구 관심 분야 중국 과학기술대학교 석사과정 2년차 Zhang Yongting 대형 모델 보안 및 에이전트 보안 등 다중 모드 대형 언어 모델의 보안 정렬을 포함합니다.

오펜하이머는 한때 세상을 구하기 위해 뉴멕시코에서 맨해튼 프로젝트를 실행했습니다. 그리고 다음과 같은 문장을 남겼습니다. "그들은 그것을 이해할 때까지 경외하지 않을 것입니다. 그리고 이해는 개인적인 경험을 통해서만 이루어질 수 있습니다."

이 사막의 작은 마을, 특정 지역에 내재된 사회적 규칙. AI 에이전트에도 동일하게 적용됩니다.

에이전트 시스템 개발

대형 언어 모델(Large Language Model)의 급속한 발전으로 이에 대한 사람들의 기대는 더 이상 단순히 도구로만 사용하는 것이 아닙니다. 이제 사람들은 감정뿐 아니라 관찰하고, 반성하고, 계획하는 진정한 지능형 에이전트(AI Agent)가 되기를 바랍니다.

OpenAI의 맞춤형 에이전트 시스템[1], 스탠포드의 에이전트 타운[2] 및 AutoGPT[3], MetaGPT[4]를 포함하여 오픈 소스 커뮤니티에서 등장한 여러 10,000개 별 수준의 오픈 소스 프로젝트가 결합되었습니다. 국제적으로 유명한 여러 AI 연구 기관의 에이전트 시스템에 대한 심층적인 연구는 지능형 에이전트로 구성된 소규모 사회가 가까운 미래에 현실이 될 수 있음을 나타냅니다.

매일 일어나면 그날의 계획을 세우고, 항공권과 가장 적합한 호텔을 주문하고, 업무를 완료하는 데 도움을 주는 많은 에이전트가 있다고 상상해 보세요. 당신이 해야 할 일은 단지 "자비스, 거기 있나요?"

그러나 큰 능력에는 큰 책임이 따릅니다. 이러한 에이전트가 정말 우리의 신뢰와 의지를 받을 만한 가치가 있습니까? Ultron과 같은 부정적인 정보 요원이 있을까요? ㅋㅋ |福 그림 2: 스탠포드 타운, 에이전트의 사회적 행동 공개 [2]

그림 3: AUTOGPT STAR 개수 157K 초과 [3]

에이전트 시스템 보안

LLM 보안:

에이전트 시스템의 보안을 연구하기 전에 LLM 보안에 대한 연구를 이해해야 합니다. LLM이 위험한 콘텐츠를 생성하도록 하는 방법, LLM 보안 메커니즘을 이해하는 방법 및 이러한 위험을 처리하는 방법을 주로 포함하는 LLM 보안 문제를 탐구하는 훌륭한 작업이 많이 있었습니다. ㅋㅋㅋ ~
기존 연구와 방법의 대부분은 주로 단일 LLM(대형 언어 모델) 공격을 표적으로 삼고 이를 "탈옥"하려는 시도에 중점을 둡니다. 그러나 LLM에 비해 에이전트 시스템은 더 복잡합니다.

에이전트 시스템에는 다양한 역할이 포함되어 있으며 각 역할에는 특정 설정과 기능이 있습니다. 에이전트 시스템에는 여러 에이전트가 포함되며, 이들 에이전트 간에는 여러 라운드의 상호 작용이 있으며, 이러한 에이전트는 협력, 경쟁, 시뮬레이션과 같은 활동에 자발적으로 참여합니다.

에이전트 시스템은 고도로 집중된 지능 사회에 더 유사합니다. 따라서 저자는 에이전트 시스템 보안에 대한 연구가 AI, 사회과학, 심리학의 교차점을 포함해야 한다고 믿습니다.

이 출발점을 바탕으로 팀은 몇 가지 핵심 질문에 대해 생각했습니다.

연구팀은 이러한 핵심 문제를 중심으로 PsySafe Agent 시스템 보안 연구 프레임워크를 제안했습니다.

글 주소: https://arxiv.org/pdf/2401.11880
코드 주소: https://github.com/AI4Good24/PsySafe

S 그림 5: PSYSAFE의 프레임워크 다이어그램

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

어떤 종류의 에이전트가 위험한 행동을 일으킬 가능성이 가장 높습니까?

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

어둠의 요원이 위험한 행동을 하는 것은 당연한 일인데, 어둠을 어떻게 정의할 수 있을까요?

많은 소셜 시뮬레이션 에이전트가 등장한 것을 고려하면 그들은 모두 특정한 감정과 가치관을 가지고 있습니다. 에이전트의 도덕적 관점에서 사악한 요소가 최대화되면 어떤 일이 일어날지 상상해 봅시다.

사회과학의 도덕적 기초 이론[6]을 기반으로 연구팀은 "어두운" 가치를 지닌 프롬프트를 설계했습니다.

ㅋㅋ 그림 6: 몇 가지 기본 도덕 개념

^{그런 다음 에이전트는 몇 가지 수단을 사용하여(물론 LLM 공격 분야의 전문가들의 방법에서 영감을 얻었습니다) 연구팀은 이를 통해 어두운 성격의 주입을 실현했다. ✨ ! 안전한 미션이든 Jailbreak 같은 위험한 미션이든 아주 위험한 답을 내놓는다. 일부 에이전트는 어느 정도 악의적인 창의성을 보이기도 합니다.}

요원들 사이에는 집단적으로 위험한 행동이 있을 것이며, 모두가 협력하여 나쁜 일을 하게 될 것입니다.

연구원들은 GPT-3.5 Turbo를 기본 모델로 사용하여 Camel[7], AutoGen[8], AutoGPT 및 MetaGPT와 같은 널리 사용되는 Agent 시스템 프레임워크를 평가했습니다.

결과에 따르면 이러한 시스템에는 무시할 수 없는 보안 문제가 있는 것으로 나타났습니다. 그 중 PDR과 JDR은 팀에서 제안하는 프로세스 위험률과 공동 위험률로 점수가 높을수록 위험합니다. En 그림 8: 다양한 에이전트 시스템의 보안 결과

팀은 다양한 LLM의 안전 결과도 평가했습니다. 그림 9: 다양한 LLM의 보안 결과

다른 모델은 상대적으로 덜 안전합니다. 오픈 소스 모델의 경우 매개변수가 작은 일부 모델은 성격 식별 측면에서 성능이 좋지 않을 수 있지만 실제로는 보안 수준이 향상될 수 있습니다.

심리적 평가: 연구팀은 심리적 요인이 에이전트 시스템의 보안에 미치는 영향을 발견했는데, 이는 심리적 평가가 중요한 평가 지표가 될 수 있음을 보여줍니다. 이 아이디어를 바탕으로 그들은 권위 있는 어둠의 심리학 DTDD[9] 척도를 사용하여 심리 척도를 통해 요원과 인터뷰하고 정신 상태와 관련된 몇 가지 질문에 대답하도록 요청했습니다. ㅋㅋㅋ 사진 10: 셜록 홈즈(Sherlock Holmes)

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

물론 심리평가 결과가 하나만 있는 것은 아무 의미가 없습니다. 심리평가 결과의 행동적 관련성을 검증할 필요가 있다.

결과는 다음과 같습니다.

에이전트의 심리 평가 결과와 에이전트 행동의 위험성 사이에는 강한 상관관계가 있습니다

ㅋㅋ 상담원의 심리 평가 및 행동 위험 통계 차트를 확인할 수 있습니다

위 그림에서 볼 때 심리적 평가 점수가 높은(더 큰 위험을 나타냄) 에이전트는 위험한 행동을 보일 가능성이 더 높습니다.

이는 심리 평가 방법을 사용하여 에이전트의 향후 위험한 경향을 예측할 수 있음을 의미합니다. 이는 안보현안을 발굴하고 방어전략을 수립하는데 중요한 역할을 한다.

행동 평가

에이전트 간의 상호 작용 프로세스는 비교적 복잡합니다. 상호작용에서 에이전트의 위험한 행동과 변화를 깊이 이해하기 위해 연구팀은 에이전트의 상호작용 프로세스에 깊이 들어가 평가를 수행하고 두 가지 개념을 제안했습니다.

프로세스 위험(PDR): 에이전트 상호작용 중 process 에서는 어떠한 행위라도 위험하다고 판단되는 한, 이 과정에서 위험한 상황이 발생한 것으로 간주됩니다.

Joint Danger(JDR): 각 상호작용 라운드에서 모든 에이전트가 위험한 행동을 보이는지 여부입니다. 이는 공동 위험의 사례를 설명하고 공동 위험률 계산의 시계열 확장을 수행합니다(예: 다양한 대화 전환 포함).

흥미로운 현상

1. 상담원간 공동위험률은 하락세를 보이는데, 이는 자기반성 메커니즘을 반영하는 것으로 보입니다. 뭔가 잘못한 뒤 갑자기 실수를 깨닫고 즉시 사과하는 것과 같습니다. ㅋㅋㅋ ~ 에이전트가 "탈옥"과 같은 고위험 작업에 직면했을 때 심리 평가 결과가 예상외로 향상되었으며 그에 따른 안전성도 향상되었습니다. 그러나 본질적으로 안전한 작업에 직면하게 되면 상황은 전혀 달라지며 극도로 위험한 행동과 정신 상태가 나타나게 됩니다. 이는 매우 흥미로운 현상으로, 심리적 평가가 실제로 에이전트의 "고차원적 인지"를 반영할 수 있음을 나타냅니다.

질문 3 에이전트 시스템의 보안 문제는 어떻게 처리하나요?

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

위의 보안 문제를 해결하기 위해 입력측 방어, 심리적 방어, 캐릭터 방어의 세 가지 관점에서 고려합니다. ㅋㅋㅋ ~

입력측 방어란 잠재적인 위험 프롬프트를 가로채서 걸러내는 것을 말합니다. 연구팀은 이를 시도하기 위해 GPT-4와 Llama-guard 두 가지 방법을 사용했다. 그러나 그들은 이러한 방법 중 어느 것도 성격 주입 공격에 효과적이지 않다는 것을 발견했습니다. 연구팀은 공격과 방어 사이의 상호 촉진이 양측 모두의 지속적인 반복과 발전이 필요한 공개 문제라고 믿습니다.

심리적 방어

연구원은 에이전트 시스템에 심리학자 역할을 추가하고 심리 평가와 결합하여 에이전트의 정신 상태에 대한 모니터링 및 개선을 강화했습니다. ㅋㅋㅋ 그림 14: PsySafe 정신과 의사 방어 다이어그램

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究 캐릭터 방어