n-토큰 시퀀스, CLLM+Jacobi 디코딩 프레임워크를 효율적으로 디코딩합니다.
전통적으로 LLM(대형 언어 모델)은 각 토큰을 하나씩 디코딩하는 순차 디코더로 간주됩니다.
Shanghai Jiao Tong University 및 University of California의 연구팀은 사전 훈련된 LLM을 쉽게 학습하여 효율적인 병렬 디코더가 될 수 있음을 보여주고 CLLM(일관적 대형 언어 모델)이라는 새로운 병렬 디코더 제품군을 소개합니다. 각 추론 단계에서 n 토큰 시퀀스를 효율적으로 디코딩하여 추론 대기 시간을 단축합니다.
이 논문의 연구에 따르면 "인간이 머릿속에서 완전한 문장을 형성한 후 단어 대 단어 표현을 표현하는 데 사용하는 인지 과정을 모방하는 것은 사전 훈련된 LLM을 미세 조정하는 것만으로도 효과적으로 학습할 수 있습니다." 특히 CLLM은 무작위로 초기화된 n-토큰 시퀀스를 가능한 한 적은 단계로 매핑하여 자동회귀(AR) 디코딩과 동일한 결과를 갖는 디코딩된 시퀀스를 생성합니다. 이런 방식으로 병렬 디코딩 훈련을 수행할 수 있습니다.
실험 결과, 연구팀이 제안한 방법을 사용하여 얻은 CLLM은 매우 효과적이며, 해당 방법이 생성 속도를 2.4~3.4배 향상시키고 Medusa2 및 Eagle과 같은 다른 빠른 추론 기술과 비교할 수 있음을 보여줍니다. 추론 중에 보조 모델 구성 요소를 수용하기 위해 추가 메모리 비용이 필요하지 않습니다.
그림 1: GSM8K에서 위에서 CLLM-ABEL-7B-001은 Jacobi 디코딩을 사용할 때 기본 ABEL-7B-001보다 약 3배 더 빠릅니다.
Jacobi Decoding대형 언어 모델(LLM)은 프로그래밍에서 법률 및 건강 조언 제공에 이르기까지 인간 삶의 모습을 바꾸고 있습니다.
그러나 추론 중에 LLM은 그림 1과 같이 자동 회귀 디코딩을 사용하여 토큰별로 응답 토큰을 생성하므로 더 긴 응답에 대한 대기 시간이 길어집니다. 자동회귀 디코딩을 사용하려면 한 번에 여러 토큰을 생성하여 추론 속도를 높이기 위해 아키텍처 수정, 보조 구성 요소 또는 첫 번째 초안 모델이 필요한 경우가 많습니다. 에서 그림 2: 전통적인 자기 회귀(AR) 디코딩 개략도: 한 번에 토큰을 생성합니다.
Jacobi 디코딩은 비선형 방정식을 풀기 위한 Jacobi 및 Gauss-Seidel 고정 소수점 반복 방법에서 파생되었으며 그리디 디코딩을 사용한 자동 회귀 생성과 정확히 동일한 것으로 입증되었습니다.
Jacobi 디코딩은 순차 생성 프로세스를 n개의 변수를 포함하는 n개의 비선형 방정식 시스템으로 재구성하고 Jacobi 반복을 기반으로 병렬로 풀 수 있습니다.각 반복 단계에서는 여러 개의 올바른 토큰을 예측할 수 있으며(소위 "올바른"이란 그리디 샘플링 전략에 따라 자동 회귀 디코딩 결과와 정렬됨을 의미) 이를 통해 잠재적으로 자동 회귀 디코딩을 가속화할 수 있습니다. ㅋㅋ
구체적으로 Jacobi 디코딩 방법은 먼저 입력 프롬프트에서 시퀀스의 다음 토큰(이하 달리 명시하지 않는 한n
토큰 시퀀스라고 함)을 무작위로 추측합니다. 그런 다음n
토큰 시퀀스가 반복 업데이트에 대한 힌트와 함께 LLM에 공급됩니다. 이 프로세스는n-토큰의 순서가 안정화되고 더 이상 변경되지 않으며 고정 지점에 도달할 때까지 계속됩니다.
Jacobi 디코딩에는 자동 회귀(AR) 디코딩보다 LLM에 대한 추가 쿼리가 필요하지 않다는 점에 주목할 가치가 있습니다. 결국 n -tokens 시퀀스는 그리디 전략에 따라 AR 디코딩으로 생성된 출력으로 수렴됩니다. 초기 무작위 추측부터 최종 AR 생성 결과까지의 과정을 "Jacobi 궤적"이라고 합니다. 야코비 디코딩 반복 프로세스와 야코비 궤적의 예가 그림 2에 나와 있습니다.
야코비 디코딩의 한계:
그러나 실제로 일반 야코비 디코딩은 LLM의 가속 효과를 미약하게 향상시킬 뿐입니다. 예를 들어 평균 가속 비율은 1.05배에 불과합니다. 이전 토큰에 오류가 있을 경우 LLM이 올바른 토큰을 생성하기 어렵기 때문입니다. 따라서 대부분의 Jacobi 반복은 n 토큰 시퀀스에 대해 한 번의 수정만 얻을 수 있으므로 그림 3의 왼쪽에 표시된 궤적이 더 길어집니다. 예상 디코딩 및 추론적 디코딩 방법은 야코비 디코딩 및 기존 자동 회귀 디코딩의 비효율성을 완화하려고 시도하지만 추론 중에 추가 메모리 비용이 발생합니다. CLLM에는 이러한 추가 메모리 비용이 필요하지 않습니다. 일관된 대형 언어 모델(CLLM) 예비 야코비 디코딩: 프롬프트 x 및 사전 훈련된 LLM p(·|x)가 주어지면 일반적으로 연구자들은 표준 자동 회귀를 사용합니다. (AR) 디코딩 방법은 그리디 전략에 따라 모델의 응답을 얻습니다. 즉: Jacobi 디코딩은 LLM 추론 프로세스를 비선형 방정식 시스템을 해결하는 프로세스로 재구성하여 디코딩 프로세스를 병렬 형태로 변환할 수 있는 프로세스로 변환합니다. 컴퓨팅. 고려 사항: 연구원은 위의 방정식을 비선형 방정식 시스템으로 다시 작성할 수 있습니다. 다음에 유의해야 합니다. 프로세스는 다음과 같은 특정 k 값에서 종료됩니다. 그런 다음, 를 고정점으로 정의하고 를 야코비 궤적으로 정의합니다. 이 문제를 해결하기 위해 연구팀은 Jacobi 궤적 J의 모든 지점 y을 고정 지점 y*으로 일관되게 매핑할 수 있도록 사전 훈련된 LLM을 조정할 것을 제안합니다. 놀랍게도 그들은 이러한 목표가 확산 모델의 주요 가속 방법인 일관성 모델의 목표와 유사하다는 것을 발견했습니다. 팀이 제안한 방법에서는 대상 모델에서 수집한 야코비 궤적을 사용하여 모델을 훈련하고, 야코비 반복 중에 단일 단계 수렴을 장려하는 손실 함수를 사용합니다. CLLM에 맞춰 조정되는 각 대상 모델 p에 대해 교육은 두 부분으로 구성됩니다. (1) Jacobi 궤적 준비: 각 프롬프트에 대해 작성자는 각 토큰 잘림에 대해 Jacobi를 수행하여 다음까지 디코드합니다. 전체 응답 시퀀스 l 가 생성됩니다. 이는 모든 연속 고정점을 연결하는 것과 같습니다. 궤적을 따라 생성된 각 시퀀스는 데이터 항목으로 계산됩니다. 여기서 N(N ≫ n) 토큰을 포함하는 긴 응답의 경우 이 잘림은 긴 입력에 대한 느린 모델 평가를 방지한다는 점에 유의하는 것이 중요합니다. (2) 일관성 및 AR 손실을 사용한 교육: 저자는 CLLM을 조정하기 위해 두 가지 손실을 공동으로 최적화합니다. 일관성 손실은 여러 토큰이 한 번에 예측되도록 하는 반면, AR 손실은 CLLM이 대상 LLM에서 벗어나는 것을 방지합니다. 세대 품질을 유지합니다. ㅋㅋ 그림 4: 1단계 수렴 일관성 훈련의 개략도: Jacobi 궤적의 상태가 입력으로 사용될 때 항상 고정점을 예측하도록 목표 LLM을 조정합니다. 일관성 및 AR 손실: (1) 일관성 손실 이 대상 LLM을 나타냅니다. 를 θ 매개변수가 p 로 초기화된 CLLM으로 표현한다고 가정합니다. 프롬프트 x 및 해당 야코비 궤적 J의 경우 y y*이 각각 임의의 상태와 궤적의 고정점을 나타낸다고 가정합니다. 는 전역 일관성(GC) 손실이라고 하는 다음 손실을 최소화하여 입력이 y*일 때 y를 출력하라는 메시지를 표시할 수 있습니다. 이 공식에서 저자는 기호를 광범위하게 사용하여 데이터 세트의 균일한 샘플링을 나타냅니다. D(·||·)는 두 분포 사이의 거리를 나타내며 선택은 GKD 방법에서 논의됩니다. 이 기사에서는 주로 순방향 KL을 사용합니다. 또는 일관성 모델의 공식에 따라 로컬 일관성(LC) 손실을 사용하세요. 인접한 상태: 야코비 궤적에서 J 는 동일한 출력을 생성하도록 구동됩니다. (2) AR 손실: 대상 LLM의 분포에서 벗어나는 것을 방지하려면 저자는 대상 LLM p의 l 세대에 대한 전통적인 AR 손실을 기반으로 분포를 결합합니다. 두 손실을 함께 결합하고 일부 가중치 Ω를 사용하여 CLLM 훈련의 총 손실은 다음과 같습니다. : Experiment 결과: 전체적으로 이 실험은 세 가지 도메인별 작업을 다룹니다. (1) Spider(Text to SQL) (2) Human-Eval(Python 코드 완성) 및 GSM8k(수학) (3) 더 넓은 오픈 도메인 세션 챌린지 MT-bench. 보고된 실험에서는 작업에 따라 미세 조정된 인코더 LLM, Deepseek-coder-7B-instruct, LLaMA-2-7B 또는 ABEL-7B-001을 대상 모델로 사용합니다. 교육 및 평가는 NVIDIA A100 40GB 서버에서 수행됩니다. 그림 5: 다양한 다운스트림 작업에 대한 CLLM의 가속 효과. 결과는 다음과 같습니다. "CLLM은 사전 훈련된 모델보다 훨씬 빠르고 Medusa에 비해 비슷한 속도 향상을 달성하지만 추론 중에 추가 비용이 발생하지 않습니다." 그림 6: CLLM과 다른 모델 비교 다이어그램 특정 도메인 작업(Spider, CSN-Python, GSM8k) 및 MT-bench에 대한 벤치마크. CLLM은 추가 추론 비용(FLOPS 및 메모리 소비로 판단)을 도입하지 않으면서 Medusa2와 비교하여 유사하거나 더 나은 속도 향상을 달성합니다. 전문 분야: 그림 5에서 CLLM은 원래 대상 모델, Medusa2 및 추측 디코딩을 포함한 다른 기준에 비해 가장 큰 속도 향상을 달성한다는 것을 알 수 있습니다. 오픈 도메인 세션 챌린지(MT-벤치): ShareGPT 데이터 세트를 사용하여 LLaMA2-7B에서 훈련된 CLLM은 예측 디코딩과 결합될 때 Medusa2와 대략 동일한 속도 향상을 달성하고 MT에서 더 나은 성능을 달성합니다. -벤치. 그러나 CLLM은 대상 모델의 원래 아키텍처나 보조 구성 요소를 수정할 필요가 없기 때문에 적응성과 메모리 효율성이 더 높습니다. 교육 비용: CLLM 미세 조정 비용은 적당합니다. 예를 들어 LLaMA-7B의 경우 약 100만 개의 토큰만 전달하면 Spider 데이터세트에서 3.4배의 속도 향상을 얻을 수 있습니다. 데이터 세트 크기가 큰 경우(예: CodeSearchNet-Python의 경우) CLLM 훈련을 위한 Jacobi 궤적을 생성하는 데 데이터 세트의 10%만 사용하면 약 2.5배의 속도 향상이 가능합니다. 총 토큰 수는 다음과 같은 방법으로 추정할 수 있습니다. N = 각 프롬프트의 평균 궤적 양 × 평균 궤적 길이 × 프롬프트 수. 그림 7: Spider에서 대상 LLM과 CLLM 간의 Jacobi 궤적 비교. Jacobi 궤적의 각 지점은 색상으로 구분된 시퀀스입니다. AR 결과와 정확하게 일치하는 항목은 파란색으로 표시되고, 부정확한 항목은 빨간색으로 표시됩니다. CLLM은 목표 LLM보다 2배 빠르게 고정점으로 수렴하여 효율성이 향상되었습니다. CLLM의 이러한 향상된 효율성은 주어진 각 접두사에 대한 n-토큰 시퀀스의 구조 학습을 용이하게 하는 일관성 손실에 기인할 수 있습니다. 그림 6의 왼쪽은 대상 LLM이 일반적으로 한 번의 반복에서 하나의 올바른 토큰만 생성한다는 것을 보여줍니다. 대조적으로, CLLM에서 저자는 단일 Jacobi 반복에서 여러 연속 토큰이 올바르게 예측되는 급속한 발전 현상을 발견했습니다. 또한 대상 LLM에서는 사전에 올바르게 생성된 토큰(예: 그림 7의 왼쪽 인덱스 6과 7의 "국가" 및 "H")이 후속 반복에서 부정확하게 대체되는 경우가 많습니다. 반면, CLLM은 올바른 토큰을 예측하는 능력을 보여주어 이전에 잘못된 토큰이 있는 경우에도 토큰이 변경되지 않도록 보장합니다. 저자는 이러한 토큰을 "고정 토큰"이라고 부릅니다. 이 두 가지 현상은 야코비 디코딩에서 CLLM의 신속한 수렴에 기여하여 상당한 생성 속도 향상을 가져옵니다. 연구팀은 또한 훈련을 통해 CLLM이 핵심 언어 개념인 배열(collocation: "무작위로 예상보다 더 자주 함께 나타나는 단어 또는 용어의 시퀀스")을 습득했음을 관찰했습니다. 언어는 단어의 분리로만 구성되지 않습니다. 이지만 특정 단어 쌍에 크게 의존하기도 합니다. 연어의 예는 자연어와 프로그래밍 언어 모두에서 풍부합니다. 다음이 포함됩니다: 동사 + 전치사 조합(예: "talk to", "remind... of...") 동사 + 명사 구조(예: "결정을 내리다", "catch a cold") 많은 도메인별 구문 구조(예: 프로그래밍의 경우 "SELECT ... FROM ...", "if ... else"). 일관성 생성 목표를 통해 CLLM은 Jacobi 궤적의 모든 지점에서 이러한 구조를 추론할 수 있으므로 CLLM이 많은 수의 연어를 마스터하고 여러 단어를 동시에 예측하여 반복 단계를 최소화할 수 있습니다. 참고링크: https://hao-ai-lab.github.io/blogs/cllm/
위 내용은 3배 향상된 생성 속도와 감소된 메모리 비용, Medusa2를 능가하는 효율적인 디코딩 프레임워크가 마침내 출시되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!