목차
FP6을 사용하여 Llama를 실행하면 단일 카드가 듀얼 카드보다 빠릅니다.
6비트를 포함한 정밀도를 지원하기 위해 TC-FPx 팀은 다양한 비트 폭의 양자화 가중치를 지원할 수 있는 통합 커널 솔루션을 설계했습니다.
기술 주변기기 일체 포함 단일 카드는 듀얼 카드보다 Llama를 70B 더 빠르게 실행합니다. Microsoft는 A100에 FP6을 넣었습니다 |

단일 카드는 듀얼 카드보다 Llama를 70B 더 빠르게 실행합니다. Microsoft는 A100에 FP6을 넣었습니다 |

Apr 29, 2024 pm 04:55 PM
데이터 모델 오픈 소스 데이터 액세스 준비

FP8 이하 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다!

Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했습니다. Microsoft DeepSpeed ​​​​팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 강제로 실행하기 시작했습니다.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

테스트 결과에 따르면 A100에서 새로운 방법인 TC-FPx의 FP6 양자화 속도는 INT4에 가깝거나 때로는 INT4를 초과하며 후자보다 정확도가 더 높습니다.

이를 바탕으로 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드 투 엔드 대규모 모델 지원도 있습니다.

이 결과는 대형 모델의 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다.

이 글을 읽은 후 한 머신러닝 연구원은 마이크로소프트의 연구가 미친 짓이라고 할 수 있다고 말했습니다.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

이모티콘 팩도 즉시 온라인에 표시됩니다. 예:

NVIDIA: H100만 FP8을 지원합니다.

Microsoft: 좋습니다. 제가 직접 하겠습니다.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

그럼 이 프레임워크는 어떤 효과를 낼 수 있고, 그 이면에는 어떤 기술이 사용되는 걸까요?

FP6을 사용하여 Llama를 실행하면 단일 카드가 듀얼 카드보다 빠릅니다.

A100에서 FP6 정확도를 사용하면 커널 수준 성능이 향상됩니다.

연구원들은 다양한 크기의 Llama 모델과 OPT 모델에서 선형 레이어를 선택하고 NVIDIA A100-40GB GPU 플랫폼에서 CUDA 11.8을 사용하여 테스트했습니다.

NVIDIA 공식 cuBLAS(W16A16) 및 TensorRT-LLM(W8A16)과 비교한 결과, TC-FPx(W6A16)의 최대 속도 향상은 각각 2.6배, 1.9배입니다. 4bit BitsandBytes

(W4A16)

방식과 비교하여 TC-FPx의 최대 속도 향상은 8.9배입니다.

(W와 A는 각각 가중치 양자화 비트 폭과 활성화 양자화 비트 폭을 나타냄)

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源Δ정규화된 데이터, cuBLAS 결과는 1

동시에 TC-FPx 코어도 감소합니다 DRAM 메모리 액세스의 필요성을 해결하고 DRAM 대역폭 활용도와 Tensor 코어 활용도는 물론 ALU 및 FMA 장치 활용도도 향상시킵니다.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源TC-FPx를 기반으로 설계된

엔드 투 엔드 추론 프레임워크 FP6-LLM은 대형 모델의 성능도 크게 향상시킵니다. Llama-70B를 예로 들면, 단일 카드에서 FP6-LLM을 실행하는 처리량은 듀얼 카드의 FP16보다 2.65배 더 높으며, 16 미만 배치 크기의 지연 시간도 FP16보다 낮습니다.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源매개변수 수가 더 적은 OPT-30B 모델(FP16도 단일 카드 사용)의 경우 FP6-LLM은 처리량을 크게 향상하고 대기 시간을 단축합니다.

이 조건에서 단일 카드 FP16이 지원하는 최대 배치 크기는 4개에 불과하지만 FP6-LLM은 배치 크기 16으로 정상적으로 작동할 수 있습니다.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源그렇다면 Microsoft 팀은 어떻게 A100에서 실행되는 FP16 양자화를 달성했을까요?

재설계된 커널 솔루션

6비트를 포함한 정밀도를 지원하기 위해 TC-FPx 팀은 다양한 비트 폭의 양자화 가중치를 지원할 수 있는 통합 커널 솔루션을 설계했습니다.

기존 듀얼 코어 방식과 비교하여 TC-FPx는 역양자화 및 행렬 곱셈을 단일 코어에 통합하여 메모리 액세스 횟수를 줄이고 성능을 향상시킵니다.

저정밀도 양자화를 달성하는 핵심 비결은 역양자화를 통해 FP6 정밀도 데이터를 FP16으로 '위장'한 다음 이를 GPU에 넘겨 FP16 형식으로 계산하는 것입니다.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

동시에 팀은 비트 수준 사전 패키징 기술을 사용하여 GPU 메모리 시스템이 2의 거듭제곱이 아닌 비트 폭(예: 6 -조금).

구체적으로, 비트 수준 사전 패킹은 GPU 메모리 시스템 친화적인 방식으로 액세스할 수 있도록 6비트 양자화된 가중치를 재배열하는 것을 포함하여 모델 추론 이전에 가중치 데이터를 재구성하는 것입니다.

또한 GPU 메모리 시스템은 일반적으로 32비트 또는 64비트 블록으로 데이터에 액세스하므로 비트 수준 사전 패킹 기술도 6비트 가중치를 패킹하여 이러한 정렬된 형태로 저장 및 액세스할 수 있습니다. 블록.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

사전 패키징이 완료된 후 연구팀은 SIMT 코어의 병렬 처리 기능을 사용하여 레지스터의 FP6 가중치에 대해 병렬 역양자화를 수행하여 FP16 형식의 가중치를 생성합니다.

역양자화된 FP16 가중치는 레지스터에서 재구성된 후 Tensor Core로 전송됩니다. 재구성된 FP16 가중치는 선형 레이어 계산을 완료하기 위해 행렬 곱셈 작업을 수행하는 데 사용됩니다.

이 과정에서 팀은 SMIT 코어의 비트 수준 병렬성을 활용하여 전체 역양자화 과정의 효율성을 향상했습니다.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

중량 재구성 작업을 병렬로 실행할 수 있도록 팀에서는 평행 중량 접합 기술도 사용했습니다.

구체적으로, 각 가중치는 여러 부분으로 나누어지고, 각 부분의 비트 폭은 2의 거듭제곱입니다(예: 6을 2+4 또는 4+2로 나누기).

역양자화하기 전에 가중치는 먼저 공유 메모리에서 레지스터로 로드됩니다. 각 가중치는 여러 부분으로 분할되므로 전체 가중치는 런타임 시 레지스터 수준에서 재구성되어야 합니다.

런타임 오버헤드를 줄이기 위해 TC-FPx에서는 가중치를 병렬 추출하고 접합하는 방법을 제안합니다. 이 접근 방식은 두 세트의 레지스터를 사용하여 32개의 FP6 가중치 세그먼트를 저장하고 이러한 가중치를 병렬로 재구성합니다.

동시에 가중치를 병렬로 추출하고 접합하려면 초기 데이터 레이아웃이 특정 순서 요구 사항을 충족하는지 확인해야 하므로 TC-FPx는 실행하기 전에 가중치 조각을 재정렬합니다.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

또한 TC-FPx는 소프트웨어 파이프라인도 설계했습니다. 이 파이프라인은 역양자화 단계와 Tensor Core의 행렬 곱셈 연산을 통합하여 명령어 수준 병렬성을 통해 전반적인 실행 효율성을 향상시킵니다.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

논문 주소: https://arxiv.org/abs/2401.14112

위 내용은 단일 카드는 듀얼 카드보다 Llama를 70B 더 빠르게 실행합니다. Microsoft는 A100에 FP6을 넣었습니다 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

안전하고 안정적인 디지털 통화 플랫폼은 무엇입니까? 안전하고 안정적인 디지털 통화 플랫폼은 무엇입니까? Mar 17, 2025 pm 05:42 PM

안전하고 신뢰할 수있는 디지털 통화 플랫폼 : 1. OKX, 2. BINANCE, 3. GATE.IO, 4. KRAKEN, 5. HUOBI, 6. COINBASE, 7. KUCOIN, 8. CRYPTO.com, 9. BITFINEX, 10. GEMINI. 플랫폼을 선택할 때 보안, 유동성, 처리 비용, 통화 선택, 사용자 인터페이스 및 고객 지원을 고려해야합니다.

상위 10 개의 가상 통화 거래 플랫폼 2025 Cryptocurrency 거래 앱 순위 상위 10 위 상위 10 개의 가상 통화 거래 플랫폼 2025 Cryptocurrency 거래 앱 순위 상위 10 위 Mar 17, 2025 pm 05:54 PM

상위 10 개의 가상 통화 거래 플랫폼 2025 : 1. OKX, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. Bitfinex, 10. Gemini. 플랫폼을 선택할 때 보안, 유동성, 처리 비용, 통화 선택, 사용자 인터페이스 및 고객 지원을 고려해야합니다.

Mar 17, 2025 pm 06:03 PM

상위 10 개 암호 화폐 거래 플랫폼은 다음과 같습니다. 1. OKX, 2. BINANCE, 3. GATE.IO, 4. KRAKEN, 5. HUOBI, 6. COINBASE, 7. KUCOIN, 8. CRYPTO.com, 9. BITFINEX, 10. GEMINI. 플랫폼을 선택할 때 보안, 유동성, 처리 비용, 통화 선택, 사용자 인터페이스 및 고객 지원을 고려해야합니다.

상위 10 개의 가상 통화 거래 앱 중 가장 좋은 것은 무엇입니까? 상위 10 개의 가상 통화 거래 앱 중 가장 좋은 것은 무엇입니까? Mar 19, 2025 pm 05:00 PM

상위 10 개의 가상 통화 거래 앱 순위 : 1. OKX, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. Bitfinex, 10. Gemini. 플랫폼을 선택할 때 보안, 유동성, 처리 비용, 통화 선택, 사용자 인터페이스 및 고객 지원을 고려해야합니다.

권장 안전 가상 통화 소프트웨어 앱 상위 10 개 디지털 통화 거래 앱 순위 2025 권장 안전 가상 통화 소프트웨어 앱 상위 10 개 디지털 통화 거래 앱 순위 2025 Mar 17, 2025 pm 05:48 PM

권장 안전 가상 통화 소프트웨어 앱 : 1. OKX, 2. BINANCE, 3. GATE.IO, 4. KRAKEN, 5. HUOBI, 6. COINBASE, 7. KUCOIN, 8. CRYPTO.com, 9. BITFINEX, 10. GEMINI. 플랫폼을 선택할 때 보안, 유동성, 처리 비용, 통화 선택, 사용자 인터페이스 및 고객 지원을 고려해야합니다.

C-Subscript를 계산하는 방법 3 첨자 5 C-Subscript 3 첨자 5 알고리즘 튜토리얼 C-Subscript를 계산하는 방법 3 첨자 5 C-Subscript 3 첨자 5 알고리즘 튜토리얼 Apr 03, 2025 pm 10:33 PM

C35의 계산은 본질적으로 조합 수학이며, 5 개의 요소 중 3 개 중에서 선택된 조합 수를 나타냅니다. 계산 공식은 C53 = 5입니다! / (3! * 2!)는 효율을 향상시키고 오버플로를 피하기 위해 루프에 의해 직접 계산할 수 있습니다. 또한 확률 통계, 암호화, 알고리즘 설계 등의 필드에서 많은 문제를 해결하는 데 조합의 특성을 이해하고 효율적인 계산 방법을 마스터하는 데 중요합니다.

SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. Mar 12, 2025 pm 01:03 PM

상하이 Jiaotong University, Shanghai Ailab 및 Chinese University of Hong Kong의 연구원들은 Visual-RFT (Visual Enhancement Fine Tuning) 오픈 소스 프로젝트를 시작했으며, 이는 LVLM (Language Big Model)의 성능을 크게 향상시키기 위해 소량의 데이터 만 필요합니다. Visual-Rft는 영리하게 DeepSeek-R1의 규칙 기반 강화 학습 접근 방식을 OpenAI의 RFT (Rencement Fine Tuning) 패러다임과 결합 하여이 접근법을 텍스트 필드에서 시야로 성공적으로 확장합니다. Visual-RFT는 시각적 하위 분류 및 객체 감지와 같은 작업에 대한 해당 규칙 보상을 설계함으로써 텍스트, 수학적 추론 및 기타 필드로 제한되는 DeepSeek-R1 메소드의 한계를 극복하여 LVLM 교육을위한 새로운 방법을 제공합니다. Vis

웹 주석에서 y 축 위치의 적응 형 레이아웃을 구현하는 방법은 무엇입니까? 웹 주석에서 y 축 위치의 적응 형 레이아웃을 구현하는 방법은 무엇입니까? Apr 04, 2025 pm 11:30 PM

웹 주석 기능에 대한 Y 축 위치 적응 알고리즘이 기사는 Word 문서와 유사한 주석 기능을 구현하는 방법, 특히 주석 간격을 다루는 방법을 모색합니다 ...

See all articles