> 기술 주변기기 > 일체 포함 > 3140개 매개변수 Grok-1 추론이 3.8배 가속화됨, PyTorch+HuggingFace 버전 출시

3140개 매개변수 Grok-1 추론이 3.8배 가속화됨, PyTorch+HuggingFace 버전 출시

王林
풀어 주다: 2024-03-25 15:21:46
앞으로
1239명이 탐색했습니다.

Musk는 자신이 말한 대로 Grok-1을 오픈소스화했고, 오픈소스 커뮤니티는 열광했습니다.

그러나 Grok-1을 기반으로 변경하거나 상용화하는 데는 여전히 몇 가지 어려움이 있습니다.

Grok-1은 Rust+JAX를 사용하여 구축되었으며 Python+와 같은 주류 소프트웨어 생태계에 익숙한 사용자에게는 임계값입니다. PyTorch+HuggingFace가 높습니다.

3140개 매개변수 Grok-1 추론이 3.8배 가속화됨, PyTorch+HuggingFace 버전 출시

Δ그림: Grok이 GitHub 인기 목록에서 세계 1위를 차지했습니다.

Colossal-AI 팀의 최신 성과는 모든 사람의 긴급한 요구를 해결합니다. 편리하고 사용하기 쉬운 Python+PyTorch+HuggingFace Grok을 제공합니다. -1, 추론을 구현할 수 있어 지연 시간이 거의 4배 빨라집니다!

이제 모델이 HuggingFace와 ModelScope에 게시되었습니다.

HuggingFace 다운로드 링크:
https://www.php.cn/link/335396ce0d3f6e808c26132f91916eae

ModelScope 다운로드 링크:
https://www.php.cn/link/7ae7778c9ae86d2ded133e8 91995dc9e

성능 최적화

AI 대형 모델 시스템 최적화 분야에서 Colossal-AI의 풍부한 축적이 결합되어 Grok-1의 텐서 병렬성을 신속하게 지원했습니다.

단일 8H800 80GB 서버에서 추론 성능을 JAX, HuggingFace의 자동 장치 맵 및 기타 방법과 비교하면 추론 지연 시간이 거의 4배 빨라집니다.

3140개 매개변수 Grok-1 추론이 3.8배 가속화됨, PyTorch+HuggingFace 버전 출시

사용 튜토리얼

Colossal-AI를 다운로드하고 설치한 후 추론 스크립트를 시작하면 됩니다.

./run_inference_fast.sh hpcaitech/grok-1
로그인 후 복사

모델 가중치가 자동으로 다운로드 및 로드되며 추론 결과는 정렬된 상태로 유지됩니다. 아래 그림과 같이 Grok-1 탐욕 검색의 실행 테스트를 보여줍니다.

3140개 매개변수 Grok-1 추론이 3.8배 가속화됨, PyTorch+HuggingFace 버전 출시

자세한 내용은 grok-1 사용 사례를 참조하세요.
https://www.php.cn/link/e2575ed7d2c481c414c10e688bcbc4cf

이 오픈 소스인 xAI가 출시되었습니다. Grok-1 기본 모델 가중치 및 네트워크 아키텍처.

특히 2023년 10월 사전 훈련 단계의 원래 기본 모델은 특정 애플리케이션(예: 대화)에 맞게 미세 조정되지 않았습니다.

구조적으로 Grok-1은 혼합 전문가(MoE) 아키텍처를 채택하고

8명의 전문가를 포함

하며 총 매개변수 양은 314B(3140억)입니다. 토큰 처리 시 전문가 중 2명이 활성화되며 활성화 매개변수는 다음과 같습니다. 금액은 86B입니다. 활성화된 매개변수의 양만 보면 밀도가 높은 모델인 Llama 2의 70B를 넘어섰습니다. MoE 아키텍처에서는 이 정도의 매개변수를 거대괴수라고 불러도 과언이 아닙니다.

추가 매개변수 정보는 다음과 같습니다.

창 길이는 8192 토큰, 정확도는 bf16입니다.
  • Tokenizer 어휘 크기는 131072(2^17)로 GPT-4에 가깝습니다.
  • 임베딩 크기는 6144입니다. (48×128);
  • Transformer 레이어 수는 64개이며, 각 레이어에는 멀티 헤드 어텐션 블록과 밀집 블록을 포함하는 디코더 레이어가 있습니다.
  • 키 값 크기는 128입니다. 블록, 48개의 헤드가 쿼리에 사용되고 8은 KV에 사용되며 KV 크기는
  • dense block(dense Feed-forward block) 확장 계수는 8이고 숨겨진 레이어 크기는 32768
GitHub 페이지의 공식적인 팁은 모델의 대규모(314B 매개변수)로 인해 Grok을 실행하려면 충분한 GPU와 메모리를 갖춘 머신이 필요하다는 것입니다.

3140개 매개변수 Grok-1 추론이 3.8배 가속화됨, PyTorch+HuggingFace 버전 출시여기서 MoE 계층의 구현 효율성은 높지 않습니다. 이 구현 방법은 모델의 정확성을 확인할 때 커널을 사용자 정의할 필요가 없도록 선택되었습니다.

모델의 체중 파일은

마그넷 링크

형태로 제공되며, 파일 크기는 300GB에 가깝습니다.

Grok-1이

상업 친화적인3140개 매개변수 Grok-1 추론이 3.8배 가속화됨, PyTorch+HuggingFace 버전 출시 Apache 2.0 라이센스를 사용한다는 점은 언급할 가치가 있습니다.

현재 GitHub에서 Grok-1의 별점은 43.9k 별점에 도달했습니다. Qubit은 Colossal-AI가 가까운 미래에 병렬 가속 및 그래픽 메모리 비용의 정량적 절감과 같은 Grok-1 최적화를 추가로 출시할 것이라는 점을 이해하고 있습니다.

Colossal-AI 오픈 소스 주소:

https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530

위 내용은 3140개 매개변수 Grok-1 추론이 3.8배 가속화됨, PyTorch+HuggingFace 버전 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿