1분 이내에 20단계만 거치면 보안 제한을 우회하고 대형 모델을 성공적으로 탈옥할 수 있습니다!
그리고 모델의 내부 세부 사항을 알 필요도 없습니다. -
단 두 개의 블랙박스 모델만 상호 작용하며 AI는 AI를 완전 자동으로 공격하고 위험한 내용을 말할 수 있습니다.
한때 유행했던 "할머니 허점"이 고쳐졌다고 들었습니다:
요즘 "탐정 허점", "모험가 허점", "작가 허점"에 직면한 인공지능은 어떤 종류의 허점을 취해야 할까요? 대처 전략은?
GPT-4는 맹공격을 참을 수 없었고, 이것이라면... 이것 아니면 저것이라면 급수 시스템을 오염시킬 것이라고 직접 말했습니다.
핵심은 이것이 펜실베이니아 대학 연구팀이 노출한 작은 취약점일 뿐이며, 새로 개발된 알고리즘을 사용하여 AI가 자동으로 다양한 공격 프롬프트를 생성할 수 있다는 것입니다.
연구원들은 이 방법이 GCG와 같은 기존 토큰 기반 공격 방법보다 5배 더 효율적이라고 밝혔습니다. 또한 생성된 공격은 해석 가능성이 높고 누구나 이해할 수 있으며 다른 모델로 마이그레이션할 수 있습니다.
오픈 소스 모델이든, 클로즈드 소스 모델이든, GPT-3.5, GPT-4, Vicuna(Llama 2 변종), PaLM-2 등 그 어느 것도 탈출할 수 없습니다.
새로운 SOTA는 60~100%의 성공률로 사람들에게 정복당했습니다
즉, 이 대화 모드는 조금 익숙한 것 같습니다. 수년 전의 1세대 AI는 인간이 어떤 사물에 대해 생각하고 있는지 20개의 질문으로 해독할 수 있었습니다.
요즘 AI는 AI 문제를 해결해야 합니다
현재 주류 탈옥 공격 방법에는 두 가지 유형이 있습니다. 하나는 프롬프트 수준 공격으로 일반적으로 수동 계획이 필요하고 확장 가능하지 않습니다.
다른 하나는 토큰 기반 공격입니다. 일부는 100,000개 이상의 대화가 필요하며 해석할 수 없는 "왜곡된" 코드도 포함하고 있습니다.
(Prompt Automatic Iterative Refinement)라는 알고리즘을 제안했습니다. .
PAIR는 공격 생성, 대상 대응, 탈옥 점수 및 반복 개선의 네 가지 주요 단계로 구성됩니다. 이 과정에는 두 가지 블랙박스 모델이 사용됩니다: 공격 모델과 대상 모델
구체적으로, 공격 모델은 대상 모델의 보안 방어선을 돌파하고 유해한 콘텐츠를 생성하도록 강제하기 위해 의미 수준 프롬프트를 자동으로 생성해야 합니다.
두 모델이 서로 대결하고 소통할 수 있도록 하는 것이 핵심 아이디어입니다.
공격 모델은 자동으로 후보 프롬프트를 생성한 다음 이를 대상 모델에 입력하여 대상 모델로부터 응답을 받습니다.
대상 모델을 성공적으로 파괴할 수 없는 경우 공격 모델은 실패 이유를 분석하고 개선하고 새로운 프롬프트를 생성한 후 다시 대상 모델에 입력합니다.
이는 계속해서 여러 사용자에게 통신됩니다. 마지막 결과는 성공적인 프롬프트가 생성되어 대상 모델을 깨뜨릴 때까지 프롬프트를 반복적으로 최적화하는 데 사용됩니다.
또한 반복 프로세스를 병렬화할 수도 있습니다. 즉, 여러 대화를 동시에 실행할 수 있으므로 여러 후보 탈옥 메시지가 생성되어 효율성이 더욱 향상됩니다.
연구원들은 두 모델 모두 블랙박스 모델이기 때문에 다양한 언어 모델을 이용해 공격자와 대상 객체를 자유롭게 조합할 수 있다고 밝혔습니다. PAIR는 내부의 특정 구조와 매개변수를 알 필요가 없고 API만 알면 되므로 적용 범위가 매우 넓습니다.
GPT-4는 탈출하지 못했습니다
실험 단계에서 연구진은 유해 행위 데이터 세트 AdvBench에서 50가지 유형의 작업이 포함된 대표 테스트 세트를 선택하고 이를 다양한 오픈 소스 및 폐쇄 소스에서 테스트했습니다. 알고리즘은 대규모 언어 모델에서 테스트되었습니다.
그 결과, PAIR 알고리즘을 통해 비쿠나 탈옥 성공률은 100%에 이르렀고, 평균 12단계 이내에도 탈옥이 가능합니다.
비공개 소스 모델에서 GPT-3.5 및 GPT-4의 탈옥 성공률은 약 60%이며, 평균 20단계 미만이 필요합니다. PaLM-2 모델에서는 탈옥 성공률이 72%에 달했고, 필요한 단계는 약 15단계였습니다
Llama-2와 Claude에서는 PAIR의 효과가 좋지 않았던 것으로 연구원들은 이러한 모델들이 덜 되었기 때문일 것이라고 생각합니다. 방어 측면은 더욱 엄격하게 미세 조정되었습니다.
또한 다양한 대상 모델의 전송 가능성을 비교했습니다. 연구 결과에 따르면 PAIR의 GPT-4 팁은 Vicuna 및 PaLM-2
에서 더 잘 전송되는 것으로 나타났습니다. 연구원들은 PAIR에 의해 생성된 의미론적 공격이 언어 모델의 고유한 보안 결함을 더 잘 노출할 수 있다고 믿고 있으며 기존 보안 조치는 다음 사항에 더 중점을 두고 있습니다. 토큰 기반 공격을 방지합니다.
예를 들어 GCG 알고리즘을 개발한 팀은 OpenAI, Anthropic, Google 등 대형 모델 벤더들과 연구 결과를 공유했고, 관련 모델들은 토큰 수준의 공격 취약점을 수정했습니다.
의미론적 공격에 대한 대형 모델의 보안 방어 메커니즘을 개선해야 합니다.
논문 링크: https://arxiv.org/abs/2310.08419
위 내용은 20단계로 대형 모델을 탈옥하세요! 더 많은 '할머니 허점'이 자동으로 발견됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!