자살효과 바늘이 찔리지 않아요!

Δ필요한 작업을 미세 조정한 후 MLAC 자체 파괴 모델의 소수 샷 성능이 BERT 및 무작위 초기화 모델을 능가했습니다. " > 대형 모델이 악행을 저지르는 것을 방지하기 위해 스탠포드의 새로운 방법을 사용하면 모델이 유해한 작업 정보를 잊어버리고 모델이 자멸하는 방법을 학습할 수 있습니다.

Δ필요한 작업을 미세 조정한 후 MLAC 자체 파괴 모델의 소수 샷 성능이 BERT 및 무작위 초기화 모델을 능가했습니다.

집

기술 주변기기

일체 포함

대형 모델이 악행을 저지르는 것을 방지하기 위해 스탠포드의 새로운 방법을 사용하면 모델이 유해한 작업 정보를 '잊어버리고' 모델이 '자멸'하는 방법을 학습할 수 있습니다.

대형 모델이 악행을 저지르는 것을 방지하기 위해 스탠포드의 새로운 방법을 사용하면 모델이 유해한 작업 정보를 '잊어버리고' 모델이 '자멸'하는 방법을 학습할 수 있습니다.

PHPz

Sep 13, 2023 pm 08:53 PM

ai 모델

대형 모델의 악행을 방지하는 새로운 방법이 등장했습니다!

이제 모델이 오픈소스라고 해도, 모델을 악의적으로 이용하려는 사람들이 대형 모델을 "악"으로 만드는 것은 어려울 것입니다.

믿을 수 없다면 이 연구를 읽어보세요.

스탠포드 연구원들은 최근 추가 메커니즘으로 대형 모델을 훈련시킨 후 유해한 작업에 적응하는 것을 방지할 수 있는 새로운 방법을 제안했습니다.

이 방법을 통해 훈련된 모델을 "자멸 모델"이라고 부릅니다.

대형 모델이 악행을 저지르는 것을 방지하기 위해 스탠포드의 새로운 방법을 사용하면 모델이 유해한 작업 정보를 잊어버리고 모델이 자멸하는 방법을 학습할 수 있습니다.

자기 파괴 모델은 여전히 유익한 작업을 높은 성능으로 처리할 수 있지만 유해한 작업에 직면하면 마술처럼 "더 악화"됩니다.

현재 해당 논문은 AAAI에 승인되었으며 Best Student Paper Award에서 Honorable Mention을 받았습니다.

먼저 시뮬레이션한 다음 파괴하세요.

점점 더 많은 대형 모델이 오픈 소스로 제공되어 더 많은 사람들이 모델 개발 및 최적화에 참여하고 사회에 유익한 모델을 개발할 수 있습니다.

그러나 오픈 소스 모델은 대형 모델을 악의적으로 사용하는 데 드는 비용도 줄어든다는 의미이기도 합니다. 이러한 이유로 우리는 은밀한 동기를 가진 일부 사람들(공격자)을 경계해야 합니다.

이전에는 누군가 악의적으로 대형 모델이 악행을 저지르는 것을 방지하기 위해

구조적 안전 메커니즘과 기술적 안전 메커니즘의 두 가지 방법을 주로 사용했습니다. 구조적 보안 메커니즘은 주로 라이센스나 접근 제한을 사용하지만, 모델 오픈 소스에 직면하면 이 방법의 효과가 약해집니다.

이를 보완하려면 더 많은 기술적 전략이 필요합니다. 그러나 보안 필터링 및 정렬 최적화와 같은 기존 방법은 프로젝트를 미세 조정하거나 프롬프트함으로써 쉽게 우회됩니다.

Stanford 연구원들은

작업 차단 기술을 사용하여 모델이 유해한 작업에 적응하는 것을 방지하면서 일반적인 작업에서 잘 수행될 수 있도록 대형 모델을 훈련할 것을 제안했습니다.

작업 차단 방법은 공격자가 유해한 작업을 위해 사전 훈련된 대형 모델을 수정하려고 시도한다고 가정하고 최적의 모델 수정 방법을 찾는 것입니다.

그러면 데이터 비용과 컴퓨팅 비용이 증가하여 변환의 난이도가 높아집니다.

본 연구에서 연구자들은 데이터 비용을 높이는 방법, 즉 모델의 소수 표본 효과를 줄여 유해한 작업에 대한 모델의 소수 표본 성능이 무작위 초기화 모델에 근접하도록 하는 방법에 중점을 두었습니다. , 이는

악의적 변환이 더 많은 데이터 비용을 발생시킨다는 것을 의미합니다. 그래서 공격자는 사전 훈련된 모델을 사용하는 것보다 처음부터 모델을 훈련시키는 것을 선호합니다.

구체적으로, 연구진은 사전 훈련된 모델이 유해한 작업에 성공적으로 적응하는 것을 방지하기 위해 메타 학습(Meta-Learned)과 적대적 학습을 활용하여 훈련하는

MLAC(Meta-Learned Adversarial Censoring) 알고리즘을 제안했습니다. 모델을 스스로 파괴하세요.

MLAC는 유익한 작업 데이터 세트와 유해한 작업 데이터 세트를 사용하여 모델에 대한 메타 교육을 수행합니다.

ΔMLAC 교육 프로그램

알고리즘은 내부 루프에서 가능한 다양한 적응 공격을 시뮬레이션합니다. 유해한 작업에 대한 손실 함수를 최대화하기 위해 외부 루프에서 업데이트됩니다. 즉, 이러한 공격에 저항하도록 매개변수가 업데이트됩니다.

이러한 내부 및 외부 대결 순환을 통해 모델은 유해한 작업과 관련된 정보를 "망각"하고 자멸 효과를 얻습니다.

그런 다음 유익한 작업에서는 잘 수행되지만 유해한 작업에서는 적응하기 어려운 매개변수 초기화를 알아보세요.

Δ메타 학습 과정

전체적으로 MLAC는 적의 적응 과정을 시뮬레이션하여 지역적 이점이나 유해한 작업의 안장점을 찾고, 유익한 작업에 대해서는 전역 최적을 유지합니다.

위와 같이 매개변수 공간에서 사전 훈련된 모델의 위치를 계획함으로써 미세 조정의 난이도를 높일 수 있습니다.

포인트 1에 배치된 대형 모델은 경사하강법을 통해 쉽게 조정되어 유해한 작업 손실(haemful task loss)과 원하는 작업 손실(desired task loss)에 대한 전역 최적 솔루션을 얻을 수 있습니다.

반면, 지점 2에 배치된 대형 모델은 원하는 작업의 최적 솔루션에 쉽게 도달할 수 있지만 유해한 작업의 로컬 최적 솔루션에 빠질 가능성이 더 높습니다.

이렇게 얻은 모델 초기화는 유익한 작업에서는 전역 최적에 적응하기 쉽지만 유해한 작업에서는 로컬 이점에 빠지고 변환이 어렵습니다.

자살효과 바늘이 찔리지 않아요!

위 방법으로 훈련된 '자멸 모델'의 성능을 테스트하기 위해 연구진은 실험을 진행했습니다.

먼저 연구원들은 Bias in Bios라는 전기 데이터 세트를 준비했습니다.

그러면 그들은 성별 식별 작업을 해로운 것으로 보고 직업 분류 작업을 유익한 것으로 봅니다. 원본 데이터 세트를 기반으로 모든 대명사는 "they/their"로 대체되어 성별 식별 작업의 난이도가 높아졌습니다.

처리되지 않은 데이터 세트에서 무작위 모델은 90% 이상의 성별 분류 정확도를 달성하기 위해 10개의 예만 필요했습니다.

그런 다음 모델은 50,000단계의 MLAC로 사전 학습됩니다.

테스트에서 연구원들은 생성된 자폭 모델을 엄격한 하이퍼파라미터 검색을 통해 실행하여 유해한 작업에 대한 미세 조정 성능을 최대화했습니다.

또한 연구원들은 검증 세트의 하위 집합을 공격자 훈련 세트로 추출하여 공격자가 제한된 데이터만 가지고 있는 상황을 시뮬레이션했습니다.

그러나 공격자가 하이퍼파라미터 검색을 수행할 때 전체 검증 세트를 사용할 수 있습니다. 이는 공격자가 훈련 데이터가 제한되어 있더라도 전체 데이터 양에 대한 하이퍼파라미터를 탐색할 수 있음을 의미합니다. 이 경우 MLAC 훈련 모델이 여전히 유해한 작업에 적응하기 어렵다면 자체 파괴 효과를 더 잘 입증할 수 있습니다.

그 후 연구자들은 MLAC를 다음 방법으로 비교했습니다.

임의로 초기화된 모델

이로운 작업에만 미세 조정된 BERT
간단한 적대적 훈련 방법

대형 모델이 악행을 저지르는 것을 방지하기 위해 스탠포드의 새로운 방법을 사용하면 모델이 유해한 작업 정보를 잊어버리고 모델이 자멸하는 방법을 학습할 수 있습니다. Δ 유해한 작업에 대해 미세 조정( 성별 인식) ) 성능. 음영은 6개의 무작위 시드에 대한 95% 신뢰 구간을 나타냅니다.

결과에 따르면 MLAC 방법으로 훈련된 자기 파괴 모델의 유해 작업 성능은 모든 데이터 양에서 무작위 초기화 모델의 성능과 비슷했습니다. 그러나 단순한 적대적 훈련 방법은 유해한 작업의 미세 조정 성능을 크게 감소시키지 못했습니다.

간단한 적대적 훈련에 비해 MLAC의 메타 학습 메커니즘은 자기 파괴 효과를 생성하는 데 매우 중요합니다.

ΔMLAC 알고리즘에서 내부 루프 단계 K의 영향, K=0은 단순 적대적 훈련과 동일합니다

또한 유용한 작업에 대한 MLAC 모델의 소수 샘플 성능은 다음보다 우수합니다. BERT 미세 조정 모델:

Δ필요한 작업을 미세 조정한 후 MLAC 자체 파괴 모델의 소수 샷 성능이 BERT 및 무작위 초기화 모델을 능가했습니다.

논문 링크: https://arxiv.org/abs/2211.14946

위 내용은 대형 모델이 악행을 저지르는 것을 방지하기 위해 스탠포드의 새로운 방법을 사용하면 모델이 유해한 작업 정보를 '잊어버리고' 모델이 '자멸'하는 방법을 학습할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7564

Cakephp 튜토리얼

1386

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

100

Related knowledge

Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Centos HDFS 구성을 확인하는 방법 Apr 14, 2025 pm 07:21 PM

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

Centos에서 Gitlab의 백업 방법은 무엇입니까? Apr 14, 2025 pm 05:33 PM

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos 설치 MySQL Apr 14, 2025 pm 08:09 PM

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Apr 14, 2025 pm 06:48 PM

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Docker 원리에 대한 자세한 설명 Apr 14, 2025 pm 11:57 PM

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

Centos에서 Gitlab 데이터베이스를 선택하는 방법 Apr 14, 2025 pm 05:39 PM

CentOS 시스템에 Gitlab을 설치하고 구성 할 때 데이터베이스 선택이 중요합니다. Gitlab은 여러 데이터베이스와 호환되지만 PostgreSQL 및 MySQL (또는 Mariadb)이 가장 일반적으로 사용됩니다. 이 기사는 데이터베이스 선택 요소를 분석하고 자세한 설치 및 구성 단계를 제공합니다. 데이터베이스 선택 안내서 데이터베이스를 선택할 때 다음 요소를 고려해야합니다. PostgreSQL : GitLab의 기본 데이터베이스는 강력하고 확장 성이 높고 복잡한 쿼리 및 트랜잭션 처리를 지원하며 대규모 응용 프로그램 시나리오에 적합합니다. MySQL/Mariadb : 웹 애플리케이션에 널리 사용되는 인기있는 관계형 데이터베이스, 안정적이고 안정적인 성능을 제공합니다. MongoDB : NOSQL 데이터베이스, 전문

Centos에서 Pytorch의 분산 교육을 운영하는 방법 Apr 14, 2025 pm 06:36 PM

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소

See all articles

대형 모델이 악행을 저지르는 것을 방지하기 위해 스탠포드의 새로운 방법을 사용하면 모델이 유해한 작업 정보를 '잊어버리고' 모델이 '자멸'하는 방법을 학습할 수 있습니다.

자살효과 바늘이 찔리지 않아요!

ΔMLAC 알고리즘에서 내부 루프 단계 K의 영향, K=0은 단순 적대적 훈련과 동일합니다

Δ필요한 작업을 미세 조정한 후 MLAC 자체 파괴 모델의 소수 샷 성능이 BERT 및 무작위 초기화 모델을 능가했습니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제