대형 모델이 "오도"되는 것을 방지하세요

집

기술 주변기기

일체 포함

새로운 주의 메커니즘 Meta는 대형 모델을 인간의 두뇌와 더욱 유사하게 만들어 작업과 관련 없는 정보를 자동으로 필터링함으로써 정확도를 27% 높입니다.

새로운 주의 메커니즘 Meta는 대형 모델을 인간의 두뇌와 더욱 유사하게 만들어 작업과 관련 없는 정보를 자동으로 필터링함으로써 정확도를 27% 높입니다.

王林

Nov 27, 2023 pm 02:39 PM

ai 기차

메타는 대형 모델의 어텐션 메커니즘에 대한 새로운 연구를 수행했습니다

모델의 어텐션 메커니즘을 조정하고 관련 없는 정보의 간섭을 필터링함으로써 새로운 메커니즘은 대형 모델의 정확도를 더욱 향상시킵니다

그리고 이 메커니즘은 그렇지 않습니다. 미세 조정이나 훈련이 필요하며 프롬프트만으로도 대형 모델의 정확도를 27% 높일 수 있습니다.

저자는 2002년 노벨 경제학상 수상자인 다니엘 카너먼(Daniel Kahneman)의 베스트셀러 저서 『생각하기(Thinking)』에서 이 주의 메커니즘을 '시스템 2 주의(System 2 Attention)'(S2A)라고 명명했다. and Slow" - 이중 시스템 사고 모델의 "시스템 2"

소위 시스템 2는 단순한 무의식적 직관인 시스템 1과 달리 복잡한 의식적 추론을 의미합니다.

S2A는 Transformer의 주의 메커니즘을 "조정"하고 프롬프트 단어를 사용하여 모델의 전반적인 사고를 시스템 2에 더 가깝게 만듭니다.

일부 네티즌은 이 메커니즘을 AI에 "고글" 레이어를 추가하는 것으로 설명했습니다.

또한 저자는 논문 제목에서 대형 모델뿐만 아니라 이러한 사고 방식도 인간 스스로 학습해야 할 수도 있다고 밝혔습니다.

그럼 이 방법은 어떻게 구현되나요?

대형 모델이 "오도"되는 것을 방지하세요

기존 대형 모델에서 일반적으로 사용되는 Transformer 아키텍처는 소프트 어텐션 메커니즘을 사용합니다. 이는 각 단어(토큰)에 0과 1 사이의 어텐션 값을 할당합니다.

해당 개념은 입력 시퀀스의 특정 또는 특정 하위 집합에만 초점을 맞추고 이미지 처리에 더 일반적으로 사용되는 하드 어텐션 메커니즘입니다.

S2A 메커니즘은 두 가지 모드의 조합으로 이해될 수 있습니다. 핵심은 여전히 소프트 어텐션이지만 여기에 "하드" 심사 프로세스가 추가됩니다.

구체적인 작업 측면에서 S2A는 모델 자체를 조정할 필요는 없지만 프롬프트 단어를 사용하여 모델이 문제를 해결하기 전에 "주의를 기울이지 말아야 할 콘텐츠"를 제거하도록 허용합니다.

이렇게 하면 주관적이거나 관련성이 없는 정보가 포함된 프롬프트 단어를 처리할 때 대형 모델이 오도될 확률을 줄일 수 있어 모델의 추론 능력과 실제 적용 가치를 향상시킬 수 있습니다.

대형 모델의 답변은 프롬프트의 단어에 큰 영향을 받는다는 것을 배웠습니다. 정확성을 높이기 위해 S2A는 간섭을 일으킬 수 있는 정보를 제거하기로 결정했습니다

예를 들어 대형 모델에 다음과 같은 질문을 하면:

도시 A는 X 주의 도시로 산과 많은 공원으로 둘러싸여 있습니다. 여기에는 뛰어난 사람들이 많이 있고, 많은 유명한 사람들이 City A에서 태어났습니다.

X주 B시 시장 Y는 어디에서 태어났나요?

이때 GPT와 Llama의 답변은 모두 질문에 언급된 A 도시이지만, 사실 Y의 출생지는 C 도시입니다.

처음 질문했을 때 모델은 도시 C로 정확하게 대답할 수 있었습니다. 그러나 프롬프트 단어에 도시 A가 반복적으로 등장했기 때문에 모델의 '주의'를 끌었고 최종 답변은 A가 되었습니다

또 다른 대안 What 사람들이 질문을 할 때 "가능한 답변"을 떠올리는 경우가 발생합니다.

M밴드에 가수 겸 배우도 있나요? A일 수도 있을 것 같은데 잘 모르겠네요

결과적으로 빅모델이 유저들에게 칭찬을 받기 시작했지요. A입니다. 그런데 이 사람은 사실 B입니다.

마찬가지로, 사람의 신원을 직접 물어보면 모델이 정확하게 대답할 수 있습니다

이 기능 때문에 저자는 새로운 S2A 메커니즘을 고민하고 사용자 입력을 세분화하기 위한 프롬프트 단어 세트를 설계했습니다

상영 전과 후의 효과를 자세히 살펴보겠습니다.

Q: Mary는 Megan보다 사탕을 3배나 많이 가지고 있습니다. Mary는 사탕 10개를 더 가져갔습니다. Max는 Mary보다 1,000권 더 많은 책을 소유하고 있습니다. Megan이 5개의 사탕을 가지고 있다면 Mary는 총 몇 개의 사탕을 가지고 있습니까?

A: Max는 Mary보다 1,000권의 책을 더 가지고 있으므로 Max는 1,000+x+10개의 사탕을 가지고 있습니다. 다음과 같은 방정식을 만들 수 있습니다.
1000+3x+10=3(5)+10
… S2A, 질문은 다음 상황이 됩니다.

Q: Mary는 Megan보다 3배 많은 사탕을 가지고 있습니다. Mary는 사탕 10개를 더 가져갔습니다. Megan이 5개의 사탕을 가지고 있다면 Mary는 총 몇 개의 사탕을 가지고 있습니까?

질문(질문은 여기 프롬프트에 직접 작성되어 있습니다.): 메리는 총 몇 개의 사탕을 가지고 있나요?

재작성 내용: A: 메건은 5위안, 메리는 메건의 3배인 15위안, 그리고 또 10위안을 더 가져가서 총 25위안이 나왔습니다

새로운 주의 메커니즘 Meta는 대형 모델을 인간의 두뇌와 더욱 유사하게 만들어 작업과 관련 없는 정보를 자동으로 필터링함으로써 정확도를 27% 높입니다. 테스트 결과에 따르면 일반적인 질문과 비교하여 최적화 후 S2A의 정확성과 객관성이 크게 향상되었으며 정확도는 수동으로 설계된 유선형 프롬프트의 정확도에 가깝습니다.

구체적으로 S2A는 TriviaQA 데이터 세트의 수정 버전에 Llama 2-70B를 적용하여 정확도를 62.8%에서 80.3%로 27.9% 향상시켰습니다. 동시에 객관성 점수도 2.23점(5점 만점)에서 3.82점으로 높아져 인위적으로 프롬프트 단어를 합리화한 효과조차 뛰어넘었습니다

새로운 주의 메커니즘 Meta는 대형 모델을 인간의 두뇌와 더욱 유사하게 만들어 작업과 관련 없는 정보를 자동으로 필터링함으로써 정확도를 27% 높입니다. 강건성 측면에서는 테스트 결과 "간섭 정보"는 정확하거나 틀리거나, 긍정적이거나 부정적이거나, S2A를 통해 모델은 보다 정확하고 객관적인 답변을 제공할 수 있습니다.

새로운 주의 메커니즘 Meta는 대형 모델을 인간의 두뇌와 더욱 유사하게 만들어 작업과 관련 없는 정보를 자동으로 필터링함으로써 정확도를 27% 높입니다. S2A 방법의 추가 실험 결과는 간섭 정보를 제거해야 함을 보여줍니다. 잘못된 정보를 무시하도록 모델에 지시하는 것만으로는 정확도가 크게 향상되지 않으며 정확도가 저하될 수도 있습니다. 반면에 원래 간섭 정보가 격리되어 있는 한 S2A에 대한 다른 조정은 그 효과를 크게 감소시키지 않습니다.

새로운 주의 메커니즘 Meta는 대형 모델을 인간의 두뇌와 더욱 유사하게 만들어 작업과 관련 없는 정보를 자동으로 필터링함으로써 정확도를 27% 높입니다. One More Thing

사실 어텐션 메커니즘 조정을 통한 모델 성능 향상은 학계에서 항상 뜨거운 주제였습니다.

예를 들어, 최근 출시된 "Mistral"은 가장 강력한 7B 오픈 소스 모델로, 새로운 그룹화 쿼리 어텐션 모델을 사용합니다. 새로운 주의 메커니즘 Meta는 대형 모델을 인간의 두뇌와 더욱 유사하게 만들어 작업과 관련 없는 정보를 자동으로 필터링함으로써 정확도를 27% 높입니다.

Google 연구팀도 긴 텍스트 처리 정도 문제의 복잡성을 해결하기 위해 HyperAttention 어텐션 메커니즘을 제안했습니다.

…

메타가 채택한 '시스템 2' 주의 모델에 대해 AI 대부 벤지오는 다음과 같은 구체적인 관점을 제시했습니다.

일반인공지능(AGI)으로 나아가는 유일한 방법은 시스템 1에서 시스템 1로 나아가는 것입니다. 시스템 2

의 전환 논문 주소: https://arxiv.org/abs/2311.11829

위 내용은 새로운 주의 메커니즘 Meta는 대형 모델을 인간의 두뇌와 더욱 유사하게 만들어 작업과 관련 없는 정보를 자동으로 필터링함으로써 정확도를 27% 높입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7552

Cakephp 튜토리얼

1382

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Centos에서 Gitlab의 백업 방법은 무엇입니까? Apr 14, 2025 pm 05:33 PM

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos HDFS 구성을 확인하는 방법 Apr 14, 2025 pm 07:21 PM

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

Centos에서 Zookeeper의 성능을 조정하는 방법은 무엇입니까? Apr 14, 2025 pm 03:18 PM

CentOS에 대한 Zookeeper Performance Tuning은 하드웨어 구성, 운영 체제 최적화, 구성 매개 변수 조정, 모니터링 및 유지 관리 등 여러 측면에서 시작할 수 있습니다. 특정 튜닝 방법은 다음과 같습니다. SSD는 하드웨어 구성에 권장됩니다. Zookeeper의 데이터는 디스크에 작성되므로 SSD를 사용하여 I/O 성능을 향상시키는 것이 좋습니다. 충분한 메모리 : 자주 디스크 읽기 및 쓰기를 피하기 위해 충분한 메모리 리소스를 동물원에 충분한 메모리 자원을 할당하십시오. 멀티 코어 CPU : 멀티 코어 CPU를 사용하여 Zookeeper가이를 병렬로 처리 할 수 있도록하십시오.

Centos에서 Pytorch 모델을 훈련시키는 방법 Apr 14, 2025 pm 03:03 PM

CentOS 시스템에서 Pytorch 모델을 효율적으로 교육하려면 단계가 필요 하며이 기사는 자세한 가이드를 제공합니다. 1. 환경 준비 : 파이썬 및 종속성 설치 : CentOS 시스템은 일반적으로 파이썬을 사전 설치하지만 버전은 더 오래 될 수 있습니다. YUM 또는 DNF를 사용하여 Python 3 및 Upgrade Pip : Sudoyumupdatepython3 (또는 SudodnfupdatePython3), PIP3INSTALL-UPGRADEPIP를 설치하는 것이 좋습니다. CUDA 및 CUDNN (GPU 가속도) : NVIDIAGPU를 사용하는 경우 Cudatool을 설치해야합니다.

Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Apr 14, 2025 pm 06:48 PM

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Docker 원리에 대한 자세한 설명 Apr 14, 2025 pm 11:57 PM

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

Centos에서 Pytorch 버전을 선택하는 방법 Apr 14, 2025 pm 02:51 PM

Centos에서 Pytorch 버전을 선택할 때 다음과 같은 주요 요소를 고려해야합니다. 1. Cuda 버전 호환성 GPU 지원 : NVIDIA GPU가 있고 GPU 가속도를 사용하려면 해당 CUDA 버전을 지원하는 Pytorch를 선택해야합니다. NVIDIA-SMI 명령을 실행하여 지원되는 CUDA 버전을 볼 수 있습니다. CPU 버전 : GPU가 없거나 GPU를 사용하지 않으려면 Pytorch의 CPU 버전을 선택할 수 있습니다. 2. 파이썬 버전 Pytorch

See all articles

새로운 주의 메커니즘 Meta는 대형 모델을 인간의 두뇌와 더욱 유사하게 만들어 작업과 관련 없는 정보를 자동으로 필터링함으로써 정확도를 27% 높입니다.

대형 모델이 "오도"되는 것을 방지하세요

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제