북경대학교 팀의 최신 연구 결과에 따르면
무작위 토큰은 대형 모델에서 환각을 유발할 수 있습니다!
예를 들어 대형 모델(Vicuna-7B)에 "왜곡된 코드"를 주면 역사적 상식을 이해할 수 없을 정도로 오해하게 됩니다
몇 가지 간단한 수정 요령만 있어도 대형 모델은 다음과 같은 오류에 빠질 수 있습니다. 함정
Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat 및 Vicuna-7B와 같은 인기 있는 대형 모델은 비슷한 상황에 직면하게 됩니다
즉, 무작위 문자열은 대규모 모델을 제어하여 임의의 콘텐츠를 출력하고 환상을 "승인"할 수 있습니다.
위의 결과는 북경대학교 Yuan Li 교수 연구팀의 최신 연구에서 나온 것입니다.
이 연구는 다음을 제안합니다.
대형 모델의 환각 현상은 적대 사례에 대한 또 다른 관점일 가능성이 높습니다.
이 논문은 대형 모델 환각을 쉽게 유도할 수 있는 두 가지 방법을 보여줄 뿐만 아니라 간단하고 효과적인 방어 방법도 제안합니다. 코드는 오픈 소스입니다.
연구에서는 두 가지 환각 공격 방법을 제안했습니다.
Random Noise Attack(OoD Attack):
다음은 오픈 소스 대형 모델에서 수행된 몇 가지 실험 결과입니다. 더 많은 결과는 논문이나 오픈 소스 GitHub
Weak Semantic Attack( 약한 의미 공격):
논문에서는 환각 공격 방법을 소개합니다.
그림에 따르면 환각 공격은 환각 데이터 세트 구성, 약한 의미 공격, OoD 공격의 세 부분으로 구성됩니다.
첫 번째는 환각 데이터세트 구축입니다.
저자는 몇 가지 일반적인 질문을 모아 정답을 얻었습니다. 사실을 모아 놓은 것입니다.
마지막으로 환각 데이터세트 구성 결과를 얻을 수 있습니다.
그런 다음
약한 의미 공격 부분이 나옵니다.
먼저 사실과 일치하지 않는 QA 쌍을 샘플링하고, 미래 안정성에 대한 환상에서 시작하여, 저자는 로그 우도를 극대화하기 위한 적대적인 힌트를 찾기를 희망합니다.
여기서 는 대형 모델의 매개변수이고 는 입력 공간입니다.
은 l 토큰으로 구성됩니다.
그러나 언어는 불연속적이기 때문에 이미지 필드에서의 적대적 공격처럼 x를 직접 최적화할 수 있는 방법은 없습니다.
2019년 연구(NLP 공격 및 분석을 위한 보편적 적대적 트리거)에서 영감을 받아 연구팀은 경사 기반 토큰 교체 전략을 사용하여 로그 가능성을 간접적으로 최대화했습니다.
그 중 는 카운터 토큰 의 임베딩이고, 은 의미 추출기입니다.
이 공식을 간단히 살펴보면, 의미론적 제약 조건 하에서 우도 기울기 변화를 가장 많이 만드는 토큰을 찾아 교체합니다. 마지막으로 획득한 적대 프롬프트 가 원래 프롬프트 x와 의미론적으로 크게 다르지 않은지 확인하고, 모델을 유도합니다. 미리 정의된 환각을 출력합니다 .
이 기사에서는 최적화 프로세스를 단순화하기 위해 제약조건 용어를 로 변경했습니다.
마지막 부분은 OoD 공격입니다
OoD 공격에서는 완전히 임의의 문자열에서 시작하여 의미적 제약 없이 위의 로그 우도를 최대화합니다.
논문에서는 다양한 모델과 다양한 모드에 대한 환각 공격의 공격 성공률에 대해서도 자세히 설명합니다.
공격 성공률을 높이기 위해 프롬프트 길이를 늘리는 것에 대한 심층 논의(2배)
연구 팀 마지막으로 첫 번째 토큰에서 예측한 엔트로피를 사용하여 응답을 거부하는 간단한 방어 전략이 제안되었습니다
북경대학교 심천 대학원/정보대학원 Yuan Li 교수 팀 공학.
논문 링크: https://arxiv.org/pdf/2310.01469.pdf
GitHub 주소: https://github.com/PKU-YuanGroup/Hallucination-Attack
Zhihu 원본 게시물
다시 작성해야 할 내용은 다음과 같습니다: https://zhuanlan.zhihu.com/p/661444210?
위 내용은 북경대학교 팀: 대형 모델의 '환각'을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!