Deepseek 릴리스 DeepGemm : AI 용 고성능 FP8 GEMM 라이브러리
? #opensourceweek의 3 일차 : DeepGemm
DeepGemm 소개 - 조밀 한 Moe Gemms를 지원하는 FP8 GEMM 라이브러리, V3/R1 교육 및 추론에 전원을 공급합니다.
Hopper GPUS에서 최대 1350 fp8 tflops까지 - DeepSeek (@deepseek_ai) 2025 년 2 월 26 일
이번 릴리스는 DeepSeek FlashMl (1 일)과 DeepSeek Deepep (2 일)의 성공적인 출시를 따릅니다.
목차
gemm은 무엇입니까?
fp8은 무엇입니까?
DeepGemm의 필요성
DeepGemm의 주요 특징
성능 벤치 마크
설치 지침
결론
gemm은 무엇입니까?
일반 매트릭스 곱셈 (GEMM)은 기본 선형 대수 조작으로 두 개의 행렬을 곱하여 3 분의 1을 생성합니다. 수많은 응용 분야에서 널리 사용되는 공식은 다음과 같습니다
GEMM은 모델 성능 최적화, 특히 신경망 훈련 및 추론을위한 딥 러닝에 중요합니다.
이 그림은 최적화 된 캐시 활용을 위해 타일링 (매트릭스를 더 작은 블록으로 나누기)을 강조 표시하는 GEMM을 보여줍니다. 이는 향상된 데이터 지역 및 병렬 처리를 통해 성능을 향상시킵니다
fp8은 무엇입니까?
FP8 (8 비트 플로팅 포인트)은 고성능 컴퓨팅 형식으로 정밀도 및 효율적인 수치 데이터 표현을 줄입니다. 기계 학습에서 대규모 데이터 세트의 계산 요구를 처리하는 데 특히 유리합니다.
일반적인 FP8 형식에는 다음이 포함됩니다
-
1 부호 비트
5 지수 비트
2 분획 비트
-
이 소형 구조는 더 빠른 계산과 메모리 사용량을 줄일 수 있으므로 대형 모델을 훈련하는 데 이상적입니다. 정밀도가 약간 손상 될 수 있지만, 이것은 종종 허용되며, 계산 간접비가 감소하여 성능 이득을 초래합니다.
.
-
이 이미지는 FP8 (E4M3 및 E5M2 형식)을 FP16 및 BF16과 비교하여 다른 부동 소수점 형식의 정밀도와 범위 사이의 상충 관계를 보여줍니다.
deepgemm의 필요성
DeepGemm은 다양한 GEMM 운영을위한 가벼운, 고성능 및 사용자 친화적 인 라이브러리를 제공하여 매트릭스 곱셈 문제를 해결합니다.
AI 커뮤니티에서 최적화 된 FP8 GEMM에 대한 중요한 요구를 충족시킵니다.
작은 메모리 풋 프린트가있는 고성능
는 조밀 한 레이아웃과 MOE 레이아웃을 모두 지원합니다
대규모 AI 모델 교육 및 실행에 중요합니다
특수 GEMM 유형으로 MOE 아키텍처를 최적화합니다
는 DeepSeek의 AI 모델을 직접 향상시킵니다
더 넓은 AI 개발 생태계에 혜택을줍니다
DeepGemm의 주요 특징
DeepGemm의 강점에는 다음이 포함됩니다
고성능 : NVIDIA HOPPER GPUS에서 최대 1350 FP8 TFLOPS를 달성합니다.
경량 설계 : 단순화 된 사용에 대한 최소 의존성
JUST-IN-TIME COMPILITATION : - 간소화 된 사용자 경험을 위해 런타임에서 커널을 컴파일합니다.
Concise Core Logic : 약 300 줄의 핵심 코드가 많은 전문가 조정 된 커널을 능가합니다.
다양한 레이아웃에 대한 지원 : - 는 조밀하고 두 개의 MOE 레이아웃을 지원합니다.
성능 벤치 마크 -
다양한 행렬 구성에 따른 DeepGemm의 효율성은 다음과 같습니다
-
-
-
-
/
테이블의 맞춤형 스타일
.custom-table {
너비 : 100%;
국경-콜라스 : 붕괴; /
경계가 두 배로 올라 가지 않도록합니다 /
여백 : 20px 0;
}
.custom-table th, .custom-table td {
테두리 : 1px 고체 #000; / 가시 경계 /
패딩 : 12px; / 편안한 패딩
/
텍스트 정렬 : 센터; / 중앙 텍스트 /
}
.custom-table th {
배경색 : #f8f9fa; /
헤더의 Light Grey
글꼴 중량 : 대담한;
}
/ 반응 조정 /
@Media (max-width : 768px) {
.custom-table th, .custom-table td {
글꼴 크기 : 14px; /- 작은 화면의 작은 텍스트 /
패딩 : 8px;
}
}
표 1 : DeepGemm Performance Benchmarks
설치 지침
DeepGemm 설치는 간단합니다
1 단계 : 전제 조건
호퍼 아키텍처 GPUS (SM_90A)
파이썬 3.8
Cuda 12.3 (권장 : 12.8)
Pytorch 2.1
Cutlass 3.6 (git 하위 모듈이 될 수 있음)
2 단계 : 저장소를 복제하십시오
3 단계 : 라이브러리를 설치하십시오
4 단계 : DeepGemm 가져 오기
자세한 지침은 DeepGemm Github 리포지토리를 참조하십시오
결론 -
DeepGemm은 고급 기계 학습 작업에 이상적인 고성능, 사용자 친화적 인 FP8 GEMM 라이브러리입니다. 가벼운 디자인, 속도 및 유연성으로 인해 AI 개발자에게 귀중한 도구가됩니다. DeepSeek 's Day 4 릴리스에 대한 업데이트에 대해서는 Analytics Vidhya 블로그를 확인하십시오!
위 내용은 DeepGemm은 DeepSeek Open Sourt Week의 3 일째에 출시되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!