Llama 3의 낮은 비트 양자화 성능이 크게 떨어집니다! 종합 평가 결과는 여기에 있습니다. HKU & Beihang University & ETH |-일체 포함-php.cn

트랙 1: 훈련 후 양자화

1. 낮은 비트 권한 가중치

2. 초저 비트 폭 LLM 가중치 압축

3. 낮은 비트 양자화 활성화

트랙 2: LoRA 미세 조정 양자화

결론

집

기술 주변기기

일체 포함

Llama 3의 낮은 비트 양자화 성능이 크게 떨어집니다! 종합 평가 결과는 여기에 있습니다. HKU & Beihang University & ETH |

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 28, 2024 am 09:01 AM

git 일체 포함 대판 llama 3

대형 모델의 힘으로 LLaMA3가 새로운 차원에 도달했습니다.

대규모로 사전 학습된 15T+ 토큰 데이터에서 인상적인 성능 향상이 이루어졌으며 권장 수준을 훨씬 초과하여 다시 한 번 폭발했습니다. Chinchilla 오픈 소스 커뮤니티 토론의 볼륨.

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

동시에 실제 적용 수준에서는 또 다른 뜨거운 주제도 표면화되었습니다.

제한된 자원이 있는 시나리오에서 LLaMA3의 정량적 성능은 어떻게 될까요?

홍콩대학교, 베이항대학교, 취리히 연방공과대학교가 공동으로 LLaMA3의 낮은 비트 양자화 기능을 완전히 공개하는 실증적 연구를 시작했습니다.

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

연구원들은 기존의 10가지 학습 후 양자화 LoRA 미세 조정 방법을 사용하여 1~8비트 및 다양한 평가 데이터 세트로 LLaMA3의 결과를 평가했습니다. 그들은 다음을 발견했습니다:

인상적인 성능에도 불구하고 LLaMA3은 낮은 비트 양자화, 특히 매우 낮은 비트 폭에서 여전히 무시할 수 없는 성능 저하를 겪고 있습니다.

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

이 프로젝트는 GitHub에서 오픈 소스로 공개되었으며 HuggingFace에서도 정량 모델이 출시되었습니다.

실증적 결과를 구체적으로 살펴보겠습니다.

트랙 1: 훈련 후 양자화

표 1과 표 2는 1비트에서 8비트까지의 넓은 범위의 비트 폭을 포괄하는 8가지 PTQ 방법에서 LLaMA3-8B 및 LLaMA3-70B의 낮은 비트 성능을 제공합니다.

1. 낮은 비트 권한 가중치

그 중 가장 가까운 곳으로 반올림(RTN)은 기본적인 반올림 양자화 방법입니다.

GPTQ는 현재 사용 가능한 가장 효율적이고 효과적인 가중치 전용 양자화 방법 중 하나이며 양자화에서 오류 보상을 활용합니다. 그러나 2~3비트에서 GPTQ는 LLaMA3을 양자화할 때 심각한 정확도 붕괴를 일으킵니다.

AWQ는 비정상적인 채널 억제 방법을 사용하여 가중치 양자화의 어려움을 줄이는 반면, QuiP은 행렬 계산을 최적화하여 가중치와 헤세 행렬 간의 불일치를 보장합니다. 이들은 모두 LLaMA3의 기능을 3비트로 유지하고 2비트 양자화도 유망한 수준으로 끌어올립니다.

2. 초저 비트 폭 LLM 가중치 압축

최근 등장한 이진 LLM 양자화 방법은 초저 비트 폭 LLM 가중치 압축을 달성합니다.

PB-LLM은 혼합 정밀도 양자화 전략을 채택하여 중요한 가중치의 작은 부분에 대한 전체 정밀도를 유지하면서 대부분의 가중치를 1비트로 양자화합니다.

DB-LLM은 이중 이진화 가중치 분할을 통해 효율적인 LLM 압축을 달성하고, 2비트 LLM 성능을 더욱 향상시키기 위한 편향 인식 증류 전략을 제안합니다.

BiLLM은 중요한 가중치의 잔차 근사화와 중요하지 않은 가중치의 그룹화된 양자화를 통해 LLM 양자화 경계를 1.1비트로 더욱 낮춥니다. 매우 낮은 비트 폭을 위해 특별히 설계된 이러한 LLM 양자화 방법은 GPTQ, AWQ 및 QuIP와 같은 방법을 2비트(경우에 따라 3비트)에서 훨씬 능가하는 ⩽2비트에서 더 높은 정밀도의 양자화 LLaMA3-8B를 달성할 수 있습니다.

3. 낮은 비트 양자화 활성화

또한 SmoothQuant를 통해 양자화 활성화에 대한 LLaMA3 평가를 수행했습니다. 이는 양자화 난이도를 활성화에서 가중치로 전환하여 활성화 이상값을 완화합니다. 평가 결과 SmoothQuant는 8비트 및 6비트 가중치와 활성화에서 LLaMA3의 정확도를 유지할 수 있지만 4비트에서는 면이 붕괴되는 것으로 나타났습니다.

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

트랙 2: LoRA 미세 조정 양자화

MMLU 데이터세트에서 LoRA-FT 양자화 하의 LLaMA3-8B에 대해 가장 눈에 띄는 관찰은 Alpaca 데이터세트에 대한 낮은 순위 미세 조정뿐만 아니라 양자화 보상 실패 도입된 버그는 성능 저하를 더욱 악화시킵니다.

구체적으로 4비트에서 다양한 LoRA-FT 양자화 방법으로 얻은 양자화된 LLaMA3 성능은 LoRA-FT가 없는 4비트 해당 버전보다 나쁩니다. 이는 4비트 하위 미세 조정 양자화 버전이 MMLU의 원래 FP16 버전보다 쉽게 성능을 발휘하는 LLaMA1 및 LLaMA2의 유사한 현상과 뚜렷한 대조를 이룹니다.

직관적 분석에 따르면 이 현상의 주된 이유는 LLaMA3의 강력한 성능이 대규모 사전 훈련의 이점을 누리기 때문입니다. 즉, 원본 모델의 양자화 후 성능 손실은 소량의 학습으로는 수행할 수 없습니다. 낮은 순위 매개변수 데이터 보정을 위한 미세 조정(이는 원래 모델의 하위 집합으로 간주될 수 있음)

양자화로 인한 심각한 열화는 미세 조정으로 보상할 수 없지만, 4비트 LoRA-FT 양자화된 LLaMA3-8B는 다양한 양자화 방법에서 LLaMA1-7B 및 LLaMA2-7B보다 성능이 훨씬 뛰어납니다. 예를 들어, QLoRA 방법을 사용하면 4비트 LLaMA3-8B의 평균 정확도는 57.0(FP16: 64.8)으로 4비트 LLaMA1-7B(FP16: 34.6)의 38.4보다 18.6, 43.9를 초과합니다. 4비트 LLaMA2-7B (FP16: 45.5 ) 13.1. 이는 LLaMA3 시대에 새로운 LoRA-FT 양자화 패러다임의 필요성을 보여줍니다.

CommonSenseQA 벤치마크에서도 비슷한 현상이 발생했습니다. QLoRA 및 IR-QLoRA로 미세 조정된 모델 성능도 LoRA-FT가 없는 4비트 모델에 비해 감소했습니다(예: QLoRA의 경우 평균 2.8% 감소 대 IR-QLoRA의 경우 평균 2.4% 감소). 이는 LLaMA3에서 고품질 데이터 세트를 사용하는 이점과 일반 데이터 세트 Alpaca가 다른 작업에서 모델 성능에 기여하지 않는다는 것을 추가로 보여줍니다.

결론

이 논문에서는 학습 후 양자화 및 LoRA 미세 조정 양자화를 포함한 다양한 낮은 비트 양자화 기술에서 LLaMA3의 성능을 종합적으로 평가합니다.

이 연구 결과는 LLaMA3가 양자화 후에도 여전히 뛰어난 성능을 보여주지만 양자화와 관련된 성능 저하가 상당하며 많은 경우 더 큰 저하로 이어질 수 있음을 보여줍니다.

이 발견은 리소스가 제한된 환경에서 LLaMA3를 배포할 때 직면할 수 있는 잠재적인 문제를 강조하고 낮은 비트 양자화의 맥락에서 성장과 개선을 위한 충분한 여지를 강조합니다. 낮은 비트 양자화로 인한 성능 저하를 해결함으로써 후속 양자화 패러다임을 통해 LLM이 더 낮은 계산 비용으로 더 강력한 기능을 달성하고 궁극적으로 대표적인 생성 인공 지능을 새로운 차원으로 끌어올릴 수 있을 것으로 기대됩니다.

논문 링크: https://arxiv.org/abs/2404.14047.

프로젝트 링크: https://github.com/Macaronlin/LLaMA3-Quantizationhttps://huggingface.co/LLMQ.

위 내용은 Llama 3의 낮은 비트 양자화 성능이 크게 떨어집니다! 종합 평가 결과는 여기에 있습니다. HKU & Beihang University & ETH |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7540

Cakephp 튜토리얼

1381

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

GIT 서버의 공개 네트워크에 연결하는 방법 Apr 17, 2025 pm 02:27 PM

GIT 서버를 공개 네트워크에 연결하려면 5 가지 단계가 포함됩니다. 1. 공개 IP 주소 설정. 2. 방화벽 포트를 엽니 다 (22, 9418, 80/443); 3. SSH 액세스 구성 (키 쌍 생성, 사용자 생성); 4. HTTP/HTTPS 액세스 구성 (설치 서버, 권한 구성); 5. 연결을 테스트합니다 (SSH 클라이언트 또는 GIT 명령 사용).

GIT 계정에 공개 키를 추가하는 방법 Apr 17, 2025 pm 02:42 PM

GIT 계정에 공개 키를 추가하는 방법은 무엇입니까? 단계 : SSH 키 쌍을 생성합니다. 공개 키를 복사하십시오. Gitlab 또는 Github에 공개 키를 추가하십시오. SSH 연결을 테스트하십시오.

git 코드 충돌을 다루는 방법 Apr 17, 2025 pm 02:51 PM

코드 충돌은 여러 개발자가 동일한 코드를 수정하고 변경 사항을 자동으로 선택하지 않고 합병 할 때 발생하는 충돌을 말합니다. 해상도 단계에는 다음이 포함됩니다. 충돌하는 파일을 열고 충돌하는 코드를 찾으십시오. 코드를 수동으로 병합하고 보관하려는 변경 사항을 충돌 마커에 복사하십시오. 충돌 마크를 삭제하십시오. 변경 사항을 저장하고 제출하십시오.

git에 의해 ssh를 감지하는 방법 Apr 17, 2025 pm 02:33 PM

GIT를 통해 SSH를 감지하려면 다음 단계를 수행해야합니다. SSH 키 쌍을 생성하십시오. GIT 서버에 공개 키를 추가하십시오. SSH를 사용하도록 GIT를 구성하십시오. SSH 연결을 테스트하십시오. 실제 조건에 따라 가능한 문제를 해결하십시오.

git 커밋을 분리하는 방법 Apr 17, 2025 pm 02:36 PM

GIT를 사용하여 세분화 된 변경 추적 및 독립적 인 작업 능력을 제공하여 코드를 별도로 제출하십시오. 단계는 다음과 같습니다. 1. 변경된 파일 추가; 2. 특정 변경 사항을 제출하십시오. 3. 위의 단계를 반복하십시오. 4. 원격 저장소에 제출을 푸시하십시오.

GIT 서버를 구축하는 방법 Apr 17, 2025 pm 12:57 PM

GIT 서버 구축에는 다음이 포함됩니다. 서버에 GIT 설치. 서버를 실행하는 사용자 및 그룹을 만듭니다. git 리포지토리 디렉토리를 만듭니다. 베어 리포지토리를 초기화하십시오. 액세스 제어 설정을 구성하십시오. SSH 서비스를 시작하십시오. 사용자에게 액세스 권한을 부여하십시오. 연결을 테스트하십시오.

git이 비틀 거리는 지점을 제출하면해야 할 일 Apr 17, 2025 pm 02:24 PM

잘못된 분기에 커밋 한 후에는 다음과 같이 해결할 수 있습니다. 잘못된 분기가 새 지점을 생성하는 것을 결정하여 올바른 지점을 가리키면 새 지점에 커밋을 적용하여 새 지점을 원격 저장소로 밀어서 잘못된 분기를 삭제합니다. 강제 원격 브랜치를 업데이트하십시오

환경 변수를 git에 추가하는 방법 Apr 17, 2025 pm 02:39 PM

환경 변수를 git에 추가하는 방법 : .gitconfig 파일을 수정하십시오. [Core] 블록에 Env = key = 값을 추가하십시오. 파일을 저장하고 종료하십시오. git 구성 (git config -reload)을 다시로드하십시오. 환경 변수를 확인하십시오 (git config -get core.env.my_env_var).

See all articles

Llama 3의 낮은 비트 양자화 성능이 크게 떨어집니다! 종합 평가 결과는 여기에 있습니다. HKU & Beihang University & ETH |

트랙 1: 훈련 후 양자화

1. 낮은 비트 권한 가중치

2. 초저 비트 폭 LLM 가중치 압축

3. 낮은 비트 양자화 활성화

트랙 2: LoRA 미세 조정 양자화

결론

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제