Databricks 이해 dbrx
DBRX는 차세대 예측을 사용하여 훈련 된 변압기 기반 디코더 전용 아키텍처를 활용합니다. 그것의 핵심 혁신은 세밀한 MOE 아키텍처에 있습니다. 이 "전문가"는 전문 LLM 에이전트이며 도메인 별 지식과 고급 추론 기능으로 향상되었습니다. DBRX는 16 명의 소규모 전문가를 활용하여 각 입력에 대해 4의 하위 집합을 선택합니다. Mixtral 및 Grok-1과 같은 모델보다 65 배 더 많은 전문가 조합이있는이 세밀한 접근 방식은 모델 품질을 크게 향상시킵니다. DBRX의 주요 특징은 다음과 같습니다
매개 변수 크기 :총 1,320 억 개의 매개 변수, 주어진 입력에 대해 360 억 개의 활성화 된 매개 변수. 교육 데이터 : 엄청난 12 조의 토큰에 미리 훈련되어 MPT 모델에 사용되는 데이터 세트의 토큰-톤 효과를 최소한 두 배 이상 제공합니다. 32,000 토큰의 컨텍스트 길이가 지원됩니다.
DBRX 훈련 방법론DBRX의 교육에는 다양한 입력에서 성능을 최적화하기 위해 신중하게 설계된 커리큘럼 및 전략적 데이터 믹스 조정이 포함되었습니다. 이 프로세스는 Apache Spark, Databricks 노트북 및 Unity 카탈로그를 포함한 Databricks의 강력한 도구를 활용했습니다. 사전 훈련 중에 사용되는 주요 기술에는 로터리 위치 인코딩 (로프), 게이트 선형 유닛 (GLU), 그룹화 된 쿼리주의 (GQA) 및 Tiktoken 저장소의 GPT-4 토 케이저가 포함됩니다.
경쟁 업체에 대한 DBRX 벤치마킹
Model Comparison | General Knowledge | Commonsense Reasoning | Databricks Gauntlet | Programming Reasoning | Mathematical Reasoning |
---|---|---|---|---|---|
DBRX vs LLaMA2-70B | 9.8% | 3.1% | 14% | 37.9% | 40.2% |
DBRX vs Mixtral Instruct | 2.3% | 1.4% | 6.1% | 15.3% | 5.8% |
DBRX vs Grok-1 | 0.7% | N/A | N/A | 6.9% | 4% |
DBRX vs Mixtral Base | 1.8% | 2.5% | 10% | 29.9% | N/A |
(이 결과 중 일부를 시각화하는 그래프는 여기에 포함됩니다. 이미지 URL : [] )
DBRX 사용 : 실용 가이드
DBRX를 사용하기 전에 시스템에 320GB의 RAM이 있는지 확인하십시오. 다음 단계를 따르십시오 :
설치 : 라이브러리를 설치하십시오 :
읽기 권한이있는 포옹 얼굴 액세스 토큰을 얻으십시오. 모델 로딩 : 다음 코드를 사용하십시오 (로 교체) :
transformers
Databricks DBRX는 LLM 기술의 상당한 발전을 나타내며, 혁신적인 MOE 아키텍처를 향상된 속도, 비용 효율성 및 성능을 활용합니다. 오픈 소스 자연은 추가 개발 및 커뮤니티 기여를 촉진합니다. 위 내용은 Databricks DBRX 튜토리얼 : 단계별 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!