> 기술 주변기기 > 일체 포함 > DeepSeek은 FlashMla를 출시합니다

DeepSeek은 FlashMla를 출시합니다

Joseph Gordon-Levitt
풀어 주다: 2025-03-03 18:10:10
원래의
297명이 탐색했습니다.

Deepseek의 획기적인 오픈 소스 릴리스 : Flashmla, Cuda 커널 가속 LLM. Hopper GPU 용으로 특별히 설계된이 최적화 된 다단히 해석 된주의 (MLA) 디코딩 커널은 AI 모델 호스팅의 속도와 효율성을 크게 향상시킵니다. 주요 개선 사항에는 BF16 지원 및 PAGED KV 캐시 (64 블록 크기)가 포함되어있어 인상적인 성능 벤치 마크가 발생합니다.

? #opensourceweek의 1 일차 : FlashMla Deepseek는 Hopper GPU의 고효율 MLA 디코딩 커널 인 FlashMla를 자랑스럽게 공개합니다. 가변 길이 시퀀스 및 현재 생산에 최적화되었습니다.
BF16 지원 ✅ PAGED KV 캐시 (블록 크기 64) 3000 GB/S 메모리 바운드 및 580 TFLOPS… - DeepSeek (@deepseek_ai) 2025 년 2 월 24 일 주요 기능 :

BF16 정밀도 :
수치 안정성을 유지하면서 효율적인 계산을 가능하게합니다 PAGED KV 캐시 (64 블록 크기) :
는 메모리 효율을 향상시키고 대기 시간, 특히 대형 모델의 경우 중요한 지연을 줄입니다.

이러한 최적화는 CUDA 12.6을 사용하여 H800 SXM5 GPU의 계산 결합 시나리오에서 최대 3000GB/s 메모리 대역폭 및 580 TFLOPS를 달성합니다. 이것은 AI 추론 성능을 크게 향상시킵니다. DeepSeek 모델에서 이전에 사용 된 FlashMla는 이제 DeepSeek AI의 R1 V3를 가속화합니다. 목차 :

flashmla 란 무엇입니까? 다중 헤드 잠재주의 이해 (MLA) 표준 다중 헤드주의 제한 MLA의 메모리 최적화 전략

키-값 캐싱 및 자동 회귀 디코딩 kv 캐싱 역학

메모리 문제 해결 DeepSeek 모델에서 FlashMla의 역할 nvidia 호퍼 아키텍처 성능 분석 및 시사점 결론
  • FlashMla 란 무엇입니까?
  • FlashMla는 NVIDIA HOPPER GPU를 위해 제작 된 고도로 최적화 된 MLA 디코딩 커널입니다. 그것의 설계는 확장 가능한 AI 모델 가속도에 대한 DeepSeek의 약속을 반영하여 속도와 효율성을 우선시합니다. 하드웨어 및 소프트웨어 요구 사항 :

    호퍼 아키텍처 gpus (예 : h800 sxm5) Cuda 12.3 Pytorch 2.0

    성능 벤치 마크 :

    FlashMla는 탁월한 성능을 보여줍니다 :

    위 내용은 DeepSeek은 FlashMla를 출시합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    본 웹사이트의 성명
    본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
    저자별 최신 기사
    인기 튜토리얼
    더>
    최신 다운로드
    더>
    웹 효과
    웹사이트 소스 코드
    웹사이트 자료
    프론트엔드 템플릿