LLMS (Large Language Models) 탁월하지만 SoftMax주의 메커니즘은 계산 병목 현상을 나타냅니다. 이 기사는 선형 시간 복잡성을 달성하기위한 대안을 탐구합니다
주의 기본 사항
함수는 지수와 비슷합니다. 계산 비용은 다음과 같습니다.
이것은 n & gt; & gt; & gt; D, LLM의 일반적인 시나리오. 반복적 인 견해는 다음과 같습니다
SoftMax의 분리 성은이 선형화를 방지합니다. 디코딩 중에 S
(n-1)는 컨텍스트 보유를 제한합니다
다양한 게이팅 기능 (g)이 존재하며 각각 다른 모델로 이어집니다.
현재 토큰에 대한 게이팅 기능의 의존성은 효율적인 병렬 처리를 가능하게합니다.
<:> 상태 공간 모델 : 컨볼 루션 접근
SSMS (State Space Models)는 CNNS 프로세스 이미지와 같은 시퀀스를 처리하는 다른 관점을 제공합니다. 이 모델은 개별 선형 시간 불변 시스템입니다 : 이것은 컨볼 루션과 관련이 있습니다
H3는 두 개의 보완 SSM 레이어를 사용합니다 :
결론
이 기사는 효율적인 시퀀스 모델링의 진화를 추적하여 계산 효율성과 메모리 용량 사이의 상충 관계를 강조합니다. SoftMax의 2 차 복잡성은 선형주의 효율성과 대조되지만 후자의 제한된 메모리는 게이트 된 선형주의 및 SSM으로 이어집니다. 데이터 의존적 모델 (게이트 선형주의 및 선택적 SSM)으로의 진행은 적응 형 정보 보유의 중요성을 강조합니다. 인용 된 논문에서 추가 독서가 제안된다.
참고 문헌 :
(승인 섹션은 변경되지 않은 상태입니다.)
위 내용은 선형주의의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!