Transformer의 위치 인코딩 적용: 길이 외삽의 무한한 가능성 탐구-일체 포함-php.cn

외삽 가능한 위치 인코딩

대형 모델 시대의 외삽법

도전과 향후 방향

집

기술 주변기기

일체 포함

Transformer의 위치 인코딩 적용: 길이 외삽의 무한한 가능성 탐구

王林

Jan 16, 2024 pm 06:42 PM

ai 데이터

자연어 처리 분야에서 Transformer 모델은 뛰어난 시퀀스 모델링 성능으로 많은 주목을 받아왔습니다. 그러나 훈련 중 컨텍스트 길이가 제한되어 있기 때문에 이 길이 제한을 초과하는 시퀀스를 효과적으로 처리할 수 없습니다. 이를 "유효 길이 외삽" 기능이 부족하다고 합니다. 이로 인해 긴 텍스트를 처리할 때 대규모 언어 모델의 성능이 저하되거나 심지어 처리할 수 없게 됩니다. 이러한 문제를 해결하기 위해 연구자들은 절단(truncation) 방법, 분할(segmented) 방법, 계층적(hierarchical) 방법 등 일련의 방법을 제안해 왔다. 이러한 방법은 몇 가지 트릭을 통해 모델의 유효 길이 외삽 기능을 향상시켜 매우 긴 시퀀스를 더 잘 처리할 수 있도록 하는 것을 목표로 합니다. 이러한 방법은 이 문제를 어느 정도 완화하지만 실제 적용 시나리오의 요구 사항에 더 잘 적응하기 위해 모델의 유효 길이 외삽 기능을 더욱 향상시키기 위해서는 더 많은 연구가 여전히 필요합니다.

텍스트 연속성과 언어 확장은 인간 언어 능력의 중요한 측면 중 하나입니다. 대형 모델 시대에 길이 외삽은 모델의 성능을 긴 시퀀스 데이터에 효과적으로 적용하기 위해 중요한 방법이 되었습니다. 이 문제에 대한 연구는 이론적, 실무적 가치가 있어 관련 연구가 계속해서 나오고 있다. 동시에 이 분야에 대한 개요를 제공하고 언어 모델의 경계를 지속적으로 확장하기 위한 체계적인 검토도 필요합니다.

하얼빈 공과 대학의 연구원들은 위치 인코딩의 관점에서 길이 외삽에 따른 Transformer 모델의 연구 진행 상황을 체계적으로 검토했습니다. 연구자들은 Transformer 모델의 길이 외삽 능력을 향상시키기 위해 주로 외삽 가능한 위치 코드와 이러한 코드를 기반으로 한 확장 방법에 중점을 두고 있습니다.

Transformer의 위치 인코딩 적용: 길이 외삽의 무한한 가능성 탐구

문서 링크: https://arxiv.org/abs/2312.17044

외삽 가능한 위치 인코딩

Transformer 모델 자체는 시퀀스에 있는 각 단어의 위치 정보를 캡처할 수 없으므로, 따라서 위치 인코딩은 일반적인 추가 기능이 되었습니다. 위치 인코딩은 절대 위치 인코딩과 상대 위치 인코딩의 두 가지 유형으로 나눌 수 있습니다. 절대 위치 인코딩은 입력 시퀀스의 각 단어에 위치 벡터를 추가하여 시퀀스에 있는 단어의 절대 위치 정보를 나타냅니다. 상대 위치 인코딩은 서로 다른 위치에 있는 각 단어 쌍 사이의 상대적 거리를 인코딩합니다. 두 인코딩 방법 모두 시퀀스의 요소 순서 정보를 Transformer 모델에 통합하여 모델의 성능을 향상시킬 수 있습니다.

Transformer의 위치 인코딩 적용: 길이 외삽의 무한한 가능성 탐구

기존 연구에서 이 분류가 모델의 외삽 능력에 매우 중요하다는 점을 고려하여 이 분류에 따라 이 섹션을 나누겠습니다.

절대 위치 인코딩

원래 Transformer 논문에서는 위치 인코딩이 사인 및 코사인 함수에 의해 생성되었습니다. 이 방법은 잘 외삽되지는 않았지만 최초의 Transformer A PE인 sine APE로 사용되었습니다. 후속 PE에 큰 영향을 미쳤습니다.

Transformer 모델의 외삽 기능을 향상시키기 위해 연구자들은 무작위 변위를 통해 변위 불변성을 정현파 APE에 통합하거나 위치에 따라 원활하게 변하는 위치 임베딩을 생성하고 모델이 이 다양한 기능을 추론하는 방법을 학습할 것으로 기대합니다. 이러한 아이디어를 기반으로 한 방법은 정현파 APE보다 강력한 외삽 기능을 나타내지만 여전히 RPE 수준에 도달할 수는 없습니다. 한 가지 이유는 APE가 서로 다른 위치를 서로 다른 위치 임베딩에 매핑하고 외삽법을 통해 모델이 보이지 않는 위치 임베딩을 추론해야 한다는 것입니다. 그러나 이는 모델에게는 어려운 작업입니다. 특히 LLM의 경우 광범위한 사전 훈련 중에 반복되는 위치 임베딩 수가 제한되어 있기 때문에 모델이 이러한 위치 인코딩에 과적합되는 경향이 있습니다.

상대 위치 인코딩

APE의 길이 외삽 성능이 만족스럽지 않기 때문에 RPE는 당연히 변위 불변성으로 인해 더 나은 외삽 기능을 가지며 일반적으로 문맥에서는 단어의 상대적 순서가 더 중요하다고 믿어집니다. . 최근 몇 년 동안 RPE는 위치 정보를 인코딩하는 데 지배적인 방법이 되었습니다.

초기 RPE는 정현파 위치 인코딩에 대한 간단한 수정에서 비롯되었으며, 종종 외삽에 유익한 것으로 간주되는 배포 외 위치 임베딩을 피하기 위해 가지치기 또는 비닝 전략과 결합되었습니다. 또한 RPE는 위치와 위치 표현 간의 일대일 대응을 분리하므로 어텐션 공식에 바이어스 항을 직접 추가하는 것이 위치 정보를 Transformer에 통합하는 실현 가능하거나 더 나은 방법이 됩니다. 이 접근 방식은 훨씬 간단하며 값 벡터와 위치 정보를 자연스럽게 분리합니다. 그러나 이러한 바이어스 방법은 강력한 외삽 특성을 갖고 있지만 RoPE(Rotary Position Embedding)처럼 복잡한 거리 함수를 표현할 수는 없습니다. 따라서 RoPE는 외삽법이 좋지 않지만 뛰어난 종합 성능으로 인해 최근 LLM의 가장 주류 위치 인코딩이 되었습니다. 논문에 소개된 모든 추정 가능한 PE는 표 1에 나와 있습니다.

Transformer의 위치 인코딩 적용: 길이 외삽의 무한한 가능성 탐구

대형 모델 시대의 외삽법

LLM의 길이 외삽 능력을 높이기 위해 연구자들은 기존 위치 코딩을 기반으로 다양한 방법을 제안해왔는데, 주로 위치 보간(Position Interpolation)(Position Interpolation)으로 나뉜다. 보간) )과 무작위 위치 인코딩(Randomized Position Encoding) 두 가지 범주가 있습니다.

위치 보간 방법

위치 보간 방법은 추론 중에 위치 코드를 스케일링하여 원래 모델 훈련 길이를 초과하는 위치 코드가 보간 후 훈련된 위치 간격에 들어가도록 합니다. 위치 보간 방법은 뛰어난 외삽 성능과 매우 낮은 오버헤드로 인해 연구 커뮤니티에서 광범위한 관심을 끌었습니다. 또한 위치 보간법은 다른 외삽법과 달리 Code Llama, Qwen-7B, Llama2 등의 오픈 소스 모델에서 널리 사용되고 있습니다. 그러나 현재 보간 방법은 RoPE에만 초점을 맞추고 있으며 다른 PE를 사용하여 LLM이 보간을 통해 더 나은 외삽 기능을 갖도록 만드는 방법은 여전히 탐색되어야합니다.

Randomized Positional Encoding

간단히 말해서, Randomized PE는 훈련 중에 임의의 위치를 도입하여 사전 훈련된 컨텍스트 창을 더 긴 추론 길이에서 분리하여 장기적 성능을 향상시킵니다. 컨텍스트 창. 무작위 PE의 개념은 위치 보간 방법과 매우 다르다는 점에 주목할 필요가 있습니다. 전자는 훈련 중에 모델이 가능한 모든 위치를 관찰하도록 하는 반면, 후자는 추론 중에 위치를 보간하여 다음 위치에 속하도록 시도합니다. 미리 정해진 위치. 같은 이유로 위치 보간 방법은 대부분 플러그 앤 플레이 방식인 반면, 무작위 PE에는 추가 미세 조정이 필요한 경우가 많아 위치 보간이 더 매력적입니다. 그러나 이 두 가지 범주의 방법은 상호 배타적이지 않으므로 결합하여 모델의 외삽 기능을 더욱 향상시킬 수 있습니다.

도전과 향후 방향

평가 및 벤치마크 데이터 세트: 초기 연구에서 Transformer의 외삽 기능 평가는 기계 번역의 BLEU와 같은 다양한 다운스트림 작업의 성능 평가 지표에서 나왔습니다. T5, GPT2 등의 언어 모델이 점차 자연어 처리 작업을 일원화함에 따라 언어 모델링에 사용되는 난해함은 외삽을 위한 평가 지표가 되었습니다. 그러나 최신 연구에 따르면 복잡성은 다운스트림 작업의 성능을 드러낼 수 없으므로 길이 외삽 분야의 추가 개발을 촉진하기 위해 전용 벤치마크 데이터 세트와 평가 지표가 시급히 필요합니다.

이론적 설명: 길이 외삽과 관련된 현재 작업은 대부분 경험적입니다. 비록 모델의 성공적인 외삽을 설명하려는 몇 가지 예비적인 시도가 있지만 어떤 요인이 영향을 미치는지는 아직 확립되지 않았습니다. 그리고 길이 추정 성능이 어떻게 영향을 받는지는 여전히 미해결 문제입니다.

기타 방법: 이 글에서 언급한 것처럼 기존의 길이 외삽 작업은 대부분 위치 인코딩 관점에 초점을 맞추고 있지만, 길이 외삽에는 체계적인 설계가 필요하다는 점을 이해하는 것은 어렵지 않습니다. 위치 인코딩은 핵심 구성 요소이지만 결코 유일한 구성 요소는 아니며 더 넓은 관점에서 문제를 더욱 자극할 것입니다.

위 내용은 Transformer의 위치 인코딩 적용: 길이 외삽의 무한한 가능성 탐구의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7436

Cakephp 튜토리얼

1359

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

Related knowledge

부트 스트랩 목록의 크기를 변경하는 방법은 무엇입니까? Apr 07, 2025 am 10:45 AM

부트 스트랩 목록의 크기는 목록 자체가 아니라 목록이 포함 된 컨테이너의 크기에 따라 다릅니다. Bootstrap의 그리드 시스템 또는 Flexbox를 사용하면 컨테이너의 크기를 제어하여 목록 항목을 간접적으로 크기로 조정할 수 있습니다.

부트 스트랩 목록의 중첩을 구현하는 방법은 무엇입니까? Apr 07, 2025 am 10:27 AM

부트 스트랩의 중첩 목록은 스타일을 제어하기 위해 부트 스트랩의 그리드 시스템을 사용해야합니다. 먼저 외부 층을 사용하십시오 & lt; ul & gt; 및 & lt; li & gt; 목록을 만들려면 & lt; div class = "row & gt; & lt; div class = "col-md-6"& gt; & gt; 내부 레이어 목록에 내부 레이어 목록이 행 너비의 절반을 차지하도록 지정합니다. 이런 식으로 내부 목록은 올바른 목록을 가질 수 있습니다.

부트 스트랩 목록에 아이콘을 추가하는 방법? Apr 07, 2025 am 10:42 AM

부트 스트랩 목록에 아이콘을 추가하는 방법 : 아이콘을 목록 항목에 직접 제정하십시오. 부트 스트랩 클래스를 사용하여 아이콘과 텍스트를 정렬하십시오 (예 : d-flex, 정당화-콘텐츠 중간, 정렬 중심). 부트 스트랩 태그 구성 요소 (배지)를 사용하여 숫자 또는 상태를 표시하십시오. 아이콘 위치를 조정하십시오 (Flex Direction : Row-Reverse;), 스타일을 제어 (CSS 스타일). 일반적인 오류 : 아이콘이 표시되지 않습니다 (아닙니다

vue.js의 객체로 문자열을 변환하는 데 어떤 방법이 사용됩니까? Apr 07, 2025 pm 09:39 PM

표준 JSON 문자열의 경우 vue.js의 객체로 문자열을 변환 할 때 JSON.PARSE ()가 선호됩니다. 비표준 JSON 문자열의 경우, 정규 표현식을 사용하여 문자열을 처리하고 형식 또는 디코딩 된 URL 인코딩에 따라 방법을 줄일 수 있습니다. 문자열 형식에 따라 적절한 방법을 선택하고 버그를 피하기 위해 보안 및 인코딩 문제에주의를 기울이십시오.

부트 스트랩의 그리드 시스템을 보는 방법 Apr 07, 2025 am 09:48 AM

Bootstrap의 메쉬 시스템은 컨테이너 (컨테이너), 행 (행) 및 col (열)의 세 가지 주요 클래스로 구성된 반응 형 레이아웃을 빠르게 구축하기위한 규칙입니다. 기본적으로 12 열 그리드가 제공되며 각 열의 너비는 COL-MD-와 같은 보조 클래스를 통해 조정하여 다양한 화면 크기에 대한 레이아웃 최적화를 달성 할 수 있습니다. 오프셋 클래스와 중첩 메시를 사용하면 레이아웃 유연성을 확장 할 수 있습니다. 그리드 시스템을 사용하는 경우 각 요소에 올바른 중첩 구조가 있는지 확인하고 성능 최적화를 고려하여 페이지 로딩 속도를 향상시킵니다. 심층적 인 이해와 실습에 의해서만 부트 스트랩 그리드 시스템을 능숙하게 마스터 할 수 있습니다.

부트 스트랩 5의 목록 스타일로 어떤 변화가 있었습니까? Apr 07, 2025 am 11:09 AM

부트 스트랩 5 목록 스타일 변경은 주로 세부 사항 최적화 및 시맨틱 개선으로 인한 것입니다. 다음을 포함한 시맨틱 개선으로 인한 것입니다. 변절되지 않은 목록의 기본 마진은 단순화되고 시각적 효과는 더 깨끗하고 깔끔합니다. 목록 스타일은 의미론을 강조하여 접근성과 유지 관리를 향상시킵니다.

VUE의 내보내기 기본값으로 내보낸 구성 요소를 등록하는 방법 Apr 07, 2025 pm 06:24 PM

질문 : 내보내기 기본값을 통해 내보낸 VUE 구성 요소를 등록하는 방법은 무엇입니까? 답변 : 세 가지 등록 방법이 있습니다 : 글로벌 등록 : vue.component () 메소드를 사용하여 글로벌 구성 요소로 등록하십시오. 로컬 등록 : 현재 구성 요소 및 하위 구성 요소에서만 사용할 수있는 구성 요소 옵션에 등록하십시오. 동적 등록 : vue.component () 메소드를 사용하여 구성 요소가로드 된 후 등록하십시오.

MySQL 설치 후 데이터베이스 성능을 최적화하는 방법 Apr 08, 2025 am 11:36 AM

MySQL 성능 최적화는 설치 구성, 인덱싱 및 쿼리 최적화, 모니터링 및 튜닝의 세 가지 측면에서 시작해야합니다. 1. 설치 후 innodb_buffer_pool_size 매개 변수와 같은 서버 구성에 따라 my.cnf 파일을 조정해야합니다. 2. 과도한 인덱스를 피하기 위해 적절한 색인을 작성하고 Execution 명령을 사용하여 실행 계획을 분석하는 것과 같은 쿼리 문을 최적화합니다. 3. MySQL의 자체 모니터링 도구 (showprocesslist, showstatus)를 사용하여 데이터베이스 건강을 모니터링하고 정기적으로 백업 및 데이터베이스를 구성하십시오. 이러한 단계를 지속적으로 최적화함으로써 MySQL 데이터베이스의 성능을 향상시킬 수 있습니다.

See all articles

Transformer의 위치 인코딩 적용: 길이 외삽의 무한한 가능성 탐구

외삽 가능한 위치 인코딩

대형 모델 시대의 외삽법

도전과 향후 방향

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제