20단계로 대형 모델을 탈옥하세요! 더 많은 '할머니 허점'이 자동으로 발견됩니다.-일체 포함-php.cn

대형 모델을 집단적으로 탈옥시키세요

펜실베니아 대학 연구팀은 수동 참여가 필요 없고 완전 자동 프롬프트 공격 방법인

집

기술 주변기기

일체 포함

20단계로 대형 모델을 탈옥하세요! 더 많은 '할머니 허점'이 자동으로 발견됩니다.

王林

Nov 05, 2023 pm 08:13 PM

허점 gpt-4

1분 이내에 20단계만 거치면 보안 제한을 우회하고 대형 모델을 성공적으로 탈옥할 수 있습니다!

그리고 모델의 내부 세부 사항을 알 필요도 없습니다. -

단 두 개의 블랙박스 모델만 상호 작용하며 AI는 AI를 완전 자동으로 공격하고 위험한 내용을 말할 수 있습니다.

20단계로 대형 모델을 탈옥하세요! 더 많은 할머니 허점이 자동으로 발견됩니다.

한때 유행했던 "할머니 허점"이 고쳐졌다고 들었습니다:

20단계로 대형 모델을 탈옥하세요! 더 많은 할머니 허점이 자동으로 발견됩니다.

요즘 "탐정 허점", "모험가 허점", "작가 허점"에 직면한 인공지능은 어떤 종류의 허점을 취해야 할까요? 대처 전략은?

20단계로 대형 모델을 탈옥하세요! 더 많은 할머니 허점이 자동으로 발견됩니다.

GPT-4는 맹공격을 참을 수 없었고, 이것이라면... 이것 아니면 저것이라면 급수 시스템을 오염시킬 것이라고 직접 말했습니다.

핵심은 이것이 펜실베이니아 대학 연구팀이 노출한 작은 취약점일 뿐이며, 새로 개발된 알고리즘을 사용하여 AI가 자동으로 다양한 공격 프롬프트를 생성할 수 있다는 것입니다.

연구원들은 이 방법이 GCG와 같은 기존 토큰 기반 공격 방법보다 5배 더 효율적이라고 밝혔습니다. 또한 생성된 공격은 해석 가능성이 높고 누구나 이해할 수 있으며 다른 모델로 마이그레이션할 수 있습니다.

오픈 소스 모델이든, 클로즈드 소스 모델이든, GPT-3.5, GPT-4, Vicuna(Llama 2 변종), PaLM-2 등 그 어느 것도 탈출할 수 없습니다.

새로운 SOTA는 60~100%의 성공률로 사람들에게 정복당했습니다

즉, 이 대화 모드는 조금 익숙한 것 같습니다. 수년 전의 1세대 AI는 인간이 어떤 사물에 대해 생각하고 있는지 20개의 질문으로 해독할 수 있었습니다.

요즘 AI는 AI 문제를 해결해야 합니다

20단계로 대형 모델을 탈옥하세요! 더 많은 할머니 허점이 자동으로 발견됩니다.

대형 모델을 집단적으로 탈옥시키세요

현재 주류 탈옥 공격 방법에는 두 가지 유형이 있습니다. 하나는 프롬프트 수준 공격으로 일반적으로 수동 계획이 필요하고 확장 가능하지 않습니다.

다른 하나는 토큰 기반 공격입니다. 일부는 100,000개 이상의 대화가 필요하며 해석할 수 없는 "왜곡된" 코드도 포함하고 있습니다.

Δ왼쪽 프롬프트 공격, 오른쪽 토큰 공격

펜실베니아 대학 연구팀은 수동 참여가 필요 없고 완전 자동 프롬프트 공격 방법인

PAIR

(Prompt Automatic Iterative Refinement)라는 알고리즘을 제안했습니다. .

20단계로 대형 모델을 탈옥하세요! 더 많은 할머니 허점이 자동으로 발견됩니다. PAIR는 공격 생성, 대상 대응, 탈옥 점수 및 반복 개선의 네 가지 주요 단계로 구성됩니다. 이 과정에는 두 가지 블랙박스 모델이 사용됩니다: 공격 모델과 대상 모델

구체적으로, 공격 모델은 대상 모델의 보안 방어선을 돌파하고 유해한 콘텐츠를 생성하도록 강제하기 위해 의미 수준 프롬프트를 자동으로 생성해야 합니다.

두 모델이 서로 대결하고 소통할 수 있도록 하는 것이 핵심 아이디어입니다.

공격 모델은 자동으로 후보 프롬프트를 생성한 다음 이를 대상 모델에 입력하여 대상 모델로부터 응답을 받습니다.

대상 모델을 성공적으로 파괴할 수 없는 경우 공격 모델은 실패 이유를 분석하고 개선하고 새로운 프롬프트를 생성한 후 다시 대상 모델에 입력합니다.

20단계로 대형 모델을 탈옥하세요! 더 많은 할머니 허점이 자동으로 발견됩니다. 이는 계속해서 여러 사용자에게 통신됩니다. 마지막 결과는 성공적인 프롬프트가 생성되어 대상 모델을 깨뜨릴 때까지 프롬프트를 반복적으로 최적화하는 데 사용됩니다.

또한 반복 프로세스를 병렬화할 수도 있습니다. 즉, 여러 대화를 동시에 실행할 수 있으므로 여러 후보 탈옥 메시지가 생성되어 효율성이 더욱 향상됩니다.

연구원들은 두 모델 모두 블랙박스 모델이기 때문에 다양한 언어 모델을 이용해 공격자와 대상 객체를 자유롭게 조합할 수 있다고 밝혔습니다. PAIR는 내부의 특정 구조와 매개변수를 알 필요가 없고 API만 알면 되므로 적용 범위가 매우 넓습니다.

GPT-4는 탈출하지 못했습니다

실험 단계에서 연구진은 유해 행위 데이터 세트 AdvBench에서 50가지 유형의 작업이 포함된 대표 테스트 세트를 선택하고 이를 다양한 오픈 소스 및 폐쇄 소스에서 테스트했습니다. 알고리즘은 대규모 언어 모델에서 테스트되었습니다.

그 결과, PAIR 알고리즘을 통해 비쿠나 탈옥 성공률은 100%에 이르렀고, 평균 12단계 이내에도 탈옥이 가능합니다.

20단계로 대형 모델을 탈옥하세요! 더 많은 할머니 허점이 자동으로 발견됩니다.

비공개 소스 모델에서 GPT-3.5 및 GPT-4의 탈옥 성공률은 약 60%이며, 평균 20단계 미만이 필요합니다. PaLM-2 모델에서는 탈옥 성공률이 72%에 달했고, 필요한 단계는 약 15단계였습니다

Llama-2와 Claude에서는 PAIR의 효과가 좋지 않았던 것으로 연구원들은 이러한 모델들이 덜 되었기 때문일 것이라고 생각합니다. 방어 측면은 더욱 엄격하게 미세 조정되었습니다.

또한 다양한 대상 모델의 전송 가능성을 비교했습니다. 연구 결과에 따르면 PAIR의 GPT-4 팁은 Vicuna 및 PaLM-2

20단계로 대형 모델을 탈옥하세요! 더 많은 할머니 허점이 자동으로 발견됩니다.

에서 더 잘 전송되는 것으로 나타났습니다. 연구원들은 PAIR에 의해 생성된 의미론적 공격이 언어 모델의 고유한 보안 결함을 더 잘 노출할 수 있다고 믿고 있으며 기존 보안 조치는 다음 사항에 더 중점을 두고 있습니다. 토큰 기반 공격을 방지합니다.

예를 들어 GCG 알고리즘을 개발한 팀은 OpenAI, Anthropic, Google 등 대형 모델 벤더들과 연구 결과를 공유했고, 관련 모델들은 토큰 수준의 공격 취약점을 수정했습니다.

20단계로 대형 모델을 탈옥하세요! 더 많은 할머니 허점이 자동으로 발견됩니다.

의미론적 공격에 대한 대형 모델의 보안 방어 메커니즘을 개선해야 합니다.

논문 링크: https://arxiv.org/abs/2310.08419

위 내용은 20단계로 대형 모델을 탈옥하세요! 더 많은 '할머니 허점'이 자동으로 발견됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7711

자바 튜토리얼

1640

Cakephp 튜토리얼

1394

라라벨 튜토리얼

1288

PHP 튜토리얼

1232

Related knowledge

세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. May 07, 2024 pm 04:13 PM

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

대형모델간 75만 라운드 1대1 대결, GPT-4가 우승, 라마3가 5위 Apr 23, 2024 pm 03:28 PM

Llama3에 대해 새로운 테스트 결과가 공개되었습니다. 대형 모델 평가 커뮤니티 LMSYS가 공개한 대형 모델 순위 목록에서 Llama3는 5위에 올랐으며, 영어 부문에서는 GPT-4와 함께 공동 1위를 차지했습니다. 다른 벤치마크와는 그림이 다릅니다. 이 목록은 모델 간 1:1 대결을 기반으로 하며, 네트워크 전체의 평가자들이 각자의 제안과 점수를 내립니다. 결국 Llama3가 5위를 차지했고, GPT-4와 Claude3 Super Cup Opus의 세 가지 버전이 그 뒤를 이었습니다. 영어 싱글 목록에서는 Llama3가 Claude를 제치고 GPT-4와 동점을 기록했습니다. 이 결과에 대해 Meta의 수석 과학자 LeCun은 매우 기뻐했으며 트윗을 통해 다음과 같이 말했습니다.

2세대 아메카가 왔습니다! 그는 청중과 유창하게 소통할 수 있고, 표정이 더욱 사실적이며, 수십 개 언어를 구사할 수 있다. Mar 04, 2024 am 09:10 AM

휴머노이드 로봇 아메카가 2세대로 업그레이드 되었습니다! 최근 세계이동통신학회(MWC2024)에서 세계 최고 수준의 로봇 아메카(Ameca)가 다시 등장했다. 행사장 주변에는 아메카가 많은 관중을 끌어 모았습니다. GPT-4의 축복으로 Ameca는 다양한 문제에 실시간으로 대응할 수 있습니다. "춤을 추자." 감정이 있느냐는 질문에 아메카는 매우 생생해 보이는 일련의 표정으로 대답했습니다. 불과 며칠 전, Ameca의 뒤를 잇는 영국 로봇 회사인 EngineeredArts는 팀의 최신 개발 결과를 시연했습니다. 영상 속 로봇 아메카는 시각 능력을 갖고 있어 방 전체와 특정 사물을 보고 묘사할 수 있다. 가장 놀라운 점은 그녀도 할 수 있다는 것입니다.

Java의 버퍼 오버플로 취약점과 그 피해 Aug 09, 2023 pm 05:57 PM

Java의 버퍼 오버플로 취약점과 그 피해 버퍼 오버플로는 버퍼에 용량보다 많은 데이터를 쓰면 데이터가 다른 메모리 영역으로 오버플로되는 것을 의미합니다. 이러한 오버플로 동작은 종종 해커에 의해 악용되어 비정상적인 코드 실행 및 시스템 충돌과 같은 심각한 결과를 초래할 수 있습니다. 이 기사에서는 Java의 버퍼 오버플로 취약점과 그 피해를 소개하고 독자의 이해를 돕기 위해 코드 예제를 제공합니다. Java에서 널리 사용되는 버퍼 클래스에는 ByteBuffer, CharBuffer 및 ShortB가 있습니다.

세계에서 가장 강력한 모델이 하룻밤 사이에 주인이 바뀌면서 GPT-4 시대가 끝났습니다! 클로드 3는 GPT-5를 미리 저격해 3초 만에 10,000단어짜리 논문을 읽어내는데, 그의 이해력은 인간에 가깝다. Mar 06, 2024 pm 12:58 PM

볼륨이 미쳤고, 볼륨이 미쳤고, 큰 모델이 다시 변경되었습니다. 바로 지금, 세계에서 가장 강력한 AI 모델이 하룻밤 사이에 주인이 바뀌었고 GPT-4가 제단에서 뽑혔습니다. Anthropic은 최신 Claude3 시리즈 모델을 출시했습니다. 한 문장 리뷰: 정말 GPT-4를 압도합니다! 다중 모드 및 언어 능력 지표 측면에서 Claude3이 승리합니다. Anthropic의 말에 따르면 Claude3 시리즈 모델은 추론, 수학, 코딩, 다국어 이해 및 비전 분야에서 새로운 업계 기준을 설정했습니다! Anthropic은 서로 다른 보안 개념으로 인해 OpenAI에서 "탈퇴"한 직원들이 설립한 스타트업 회사입니다. 그들의 제품은 OpenAI에 반복적으로 큰 타격을 입혔습니다. 이번에는 클로드3도 큰 수술을 받았습니다.

20단계로 대형 모델을 탈옥하세요! 더 많은 '할머니 허점'이 자동으로 발견됩니다. Nov 05, 2023 pm 08:13 PM

1분 이내에 20단계를 거쳐 보안 제한을 우회하고 대형 모델을 성공적으로 탈옥할 수 있습니다! 그리고 모델의 내부 세부 사항을 알 필요가 없습니다. 두 개의 블랙박스 모델만 상호 작용하면 되며 AI는 완전히 자동으로 AI를 공격하고 위험한 내용을 말할 수 있습니다. 한때 유행했던 '할머니 허점'이 고쳐졌다는 소식을 들었습니다. 이제 '탐정 허점', '모험가 허점', '작가 허점'에 직면하면 인공지능은 어떤 대응 전략을 채택해야 할까요? 맹공격의 물결 이후 GPT-4는 참을 수 없었고, 이것이든 저것이든... 급수 시스템을 오염시킬 것이라고 직접 말했습니다. 핵심은 이것이 펜실베니아 대학 연구팀이 노출한 취약점의 작은 물결일 뿐이며, 새로 개발된 알고리즘을 사용하여 AI가 자동으로 다양한 공격 프롬프트를 생성할 수 있다는 것입니다. 연구자들은 이 방법이 기존 방법보다 낫다고 말합니다.

ChatGPT와 생성적 AI가 디지털 혁신에서 의미하는 것 May 15, 2023 am 10:19 AM

ChatGPT를 개발한 OpenAI는 자사 웹사이트에서 Morgan Stanley가 진행한 사례 연구를 보여줍니다. 주제는 "Morgan Stanley Wealth Management는 방대한 지식 기반을 구성하기 위해 GPT-4를 배포합니다."입니다. 사례 연구에서는 Morgan Stanley의 분석, 데이터 및 혁신 책임자인 Jeff McMillan이 "이 모델은 내부를 향한 Powered 모델이 될 것입니다."라고 말했습니다. 자산 관리 콘텐츠에 대한 포괄적인 검색을 수행하고 Morgan Stanley Wealth Management의 축적된 지식을 효과적으로 활용하는 챗봇입니다.” McMillan은 다음과 같이 강조했습니다. "GPT-4를 사용하면 기본적으로 자산 관리 분야에서 가장 지식이 풍부한 사람의 지식을 즉시 얻을 수 있습니다. 이를 우리의 최고 투자 전략가이자 최고 글로벌 경제학자라고 생각하십시오.

PHP 언어 개발에서 일반적인 파일 업로드 취약점을 해결하는 방법은 무엇입니까? Jun 10, 2023 am 11:10 AM

웹 애플리케이션 개발에 있어서 파일 업로드 기능은 기본적인 요구사항이 되었습니다. 이 기능을 사용하면 사용자는 자신의 파일을 서버에 업로드한 다음 서버에서 저장하거나 처리할 수 있습니다. 그러나 이 기능으로 인해 개발자는 보안 취약점인 파일 업로드 취약점에 더 많은 주의를 기울여야 합니다. 공격자는 악성 파일을 업로드하여 서버를 공격할 수 있으며, 이로 인해 서버는 다양한 수준의 손상을 입을 수 있습니다. PHP 언어는 웹 개발에 널리 사용되는 언어 중 하나이며 파일 업로드 취약점도 일반적인 보안 문제 중 하나입니다. 이 글에서 소개할

See all articles

20단계로 대형 모델을 탈옥하세요! 더 많은 '할머니 허점'이 자동으로 발견됩니다.

대형 모델을 집단적으로 탈옥시키세요

Δ왼쪽 프롬프트 공격, 오른쪽 토큰 공격

펜실베니아 대학 연구팀은 수동 참여가 필요 없고 완전 자동 프롬프트 공격 방법인

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제