선형주의-일체 포함-php.cn

선형주의

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

풀어 주다： 2025-02-25 19:10:11

원래의

109명이 탐색했습니다.

LLMS (Large Language Models) 탁월하지만 SoftMax주의 메커니즘은 계산 병목 현상을 나타냅니다. 이 기사는 선형 시간 복잡성을 달성하기위한 대안을 탐구합니다

주의 기본 사항

Chatgpt 및 Transformers와 같은 LLM에 대한 친숙 함을 가정하면 이러한 모델의 핵심 인 관심에 중점을 둡니다. 과거 상태를 숨겨진 벡터로 압축하는 RNN과 달리주의는 각각의 새로운 쿼리에 대한 관련 과거 데이터를 선택적으로 검색합니다. 변압기는 키 (k), 쿼리 (Q) 및 값 (v) 임베딩을 사용합니다. 주의 메커니즘은 키와 쿼리를 일치시켜 값을 검색합니다.

SoftMax는 유사성 점수를 K-Nearest 이웃과 유사하게 확률로 변환합니다. 단일주의 계층의 계산 비용은 다음과 같습니다 SoftMax의 2 차 복잡성 (O (n²))는 긴 시퀀스 (n & gt; & gt; 100k)에 대해 엄청나게됩니다. <:> 선형주의 : 솔루션? Katharopoulos et al.에 의해 제안 된 선형주의는 SoftMax 지수를 커널 함수로 영리하게 재 작성하여 선형 계산을 가능하게합니다. 변환은 다음과 같습니다 :

함수는 지수와 비슷합니다. 계산 비용은 다음과 같습니다.

이것은 n & gt; & gt; & gt; D, LLM의 일반적인 시나리오. 반복적 인 견해는 다음과 같습니다 Linearizing Attention SoftMax의 분리 성은이 선형화를 방지합니다. 디코딩 중에 S

(N-1) 만 추적이 필요하므로 토큰 당 O (D²)가 발생합니다. 그러나 고정 크기 s

(n-1)는 컨텍스트 보유를 제한합니다 게이트 선형주의 : 전략 메모리

게이트 된 선형주의는 정보를 선택적으로 유지함으로써 메모리 제한을 다룹니다. 주요 변화는 s_n : 의 공식화에 있습니다

다양한 게이팅 기능 (g)이 존재하며 각각 다른 모델로 이어집니다. Linearizing Attention 현재 토큰에 대한 게이팅 기능의 의존성은 효율적인 병렬 처리를 가능하게합니다. <:> 상태 공간 모델 : 컨볼 루션 접근 SSMS (State Space Models)는 CNNS 프로세스 이미지와 같은 시퀀스를 처리하는 다른 관점을 제공합니다. 이 모델은 개별 선형 시간 불변 시스템입니다 : 이것은 컨볼 루션과 관련이 있습니다 H3는 두 개의 보완 SSM 레이어를 사용합니다 :

Linearizing Attention 선택적 상태 공간 모델 : 데이터 의존적 역학 SSMS의 고정 매개 변수는 적응성을 제한합니다. 선택적 SSM은 시스템 데이터 의존성을 만들어 다음을 해결합니다 Mamba는 출력 게이팅 및 컨볼 루션이있는 선택적 SSM을 사용합니다

Linearizing Attention 결론 이 기사는 효율적인 시퀀스 모델링의 진화를 추적하여 계산 효율성과 메모리 용량 사이의 상충 관계를 강조합니다. SoftMax의 2 차 복잡성은 선형주의 효율성과 대조되지만 후자의 제한된 메모리는 게이트 된 선형주의 및 SSM으로 이어집니다. 데이터 의존적 모델 (게이트 선형주의 및 선택적 SSM)으로의 진행은 적응 형 정보 보유의 중요성을 강조합니다. 인용 된 논문에서 추가 독서가 제안된다.