> 기술 주변기기 > 일체 포함 > Salesforce XGEN-7B : XGEN-7B 사용 및 미세 조정에 대한 단계별 자습서

Salesforce XGEN-7B : XGEN-7B 사용 및 미세 조정에 대한 단계별 자습서

William Shakespeare
풀어 주다: 2025-03-08 11:44:09
원래의
131명이 탐색했습니다.

salesforce의 XGEN-7B : 8K 컨텍스트 길이 LLM (Leading Open-Source Lange Language Models)은 상당한 한계를 겪고 있습니다. 짧은 컨텍스트 창, 일반적으로 2048 토큰에 캡핑되었습니다. 이는 GPT-3.5 및 GPT-4와 같은 독점 모델과 크게 대조되며 최대 32,000 개의 토큰의 컨텍스트 길이를 자랑합니다. 이 제약은 요약, 번역 및 코드 생성과 같은 광범위한 맥락 이해를 요구하는 작업에 성능에 심각한 영향을 미칩니다. Salesforce의 XGEN-7B를 입력하십시오. 이 모델은 컨텍스트 길이의 병목 현상을 정면으로 해결하여 8,000 번의 컨텍스트 창을 제공합니다. 이 기사는 샘플 데이터 세트에서 XGEN-7B의 주요 기능, 사용 및 미세 조정을 탐구합니다. 왜 XGEN-7B를 선택합니까?

XGEN-7B의 장점은 확장 컨텍스트 길이를 넘어 확장됩니다. 주요 기능은 다음과 같습니다 exceptional Efficiency :

XGEN-7B는 상대적으로 겸손한 매개 변수에도 불구하고 훨씬 더 큰 모델을 경쟁하거나 능가하는 성능을 제공합니다. 이 효율성을 통해 고급 로컬 기계에 배치 할 수 있으므로 광범위한 클라우드 컴퓨팅 리소스가 필요하지 않습니다. 이를 통해 개별 연구원에서 소규모 비즈니스에 이르기까지 광범위한 사용자가 액세스 할 수 있습니다. 다목적 모델 변형 :

Salesforce는 다양한 요구를 충족시키기 위해 3 개의 XGEN-7B 변형을 제공합니다.

XGEN-7B-4K-BASE :

4,000-Token 모델은 중간 정도의 컨텍스트가 필요한 작업에 적합합니다. Apache 2.0 라이센스에 따라 라이센스가 부여되었습니다 XGEN-7B-8K-BASE :

플래그십 8,000-Token 모델, 광범위한 상황 분석이 필요한 복잡한 작업에 이상적입니다. 또한 Apache 2.0에 따라 라이센스가 부여되었습니다 xgen-7b- {4k, 8k}-

대화식 및 교육 응용 프로그램 (비상업적 사용)을 위해 미세 조정. 교육 도구 및 챗봇에 적합합니다.

우수한 벤치 마크 성능 : XGEN-7B는 MMLU 및 HumaneVal을 포함한 다양한 벤치 마크에서 유사한 크기의 모델을 지속적으로 성능이 우수합니다. 자세한 벤치 마크 결과는 공식 발표를 참조하십시오 긴 시퀀스에 대한 최적화 :

XGEN-7B의 아키텍처는 장기 시퀀스 작업에 대해 특별히 최적화됩니다. 이것은 세부 문서 요약 및 포괄적 인 질문 응답과 같은 응용 프로그램에 중요합니다. 전체 입력을 이해하는 것이 정확하고 일관된 출력에 필수적입니다. Salesforce XGEN-7B 교육 방법론 XGEN-7B의 인상적인 기능은 정교한 훈련 과정에서 비롯됩니다

    1 단계 1 단계 :
  • 혼합 자연 언어 및 코드 데이터에 대한 1 조 10 조의 토큰에 대한 교육. 2 단계 : 코드 생성 기능을 향상시키기 위해 550 억 개의 코드 데이터에 대한 추가 교육. Salesforce XGen-7B: A Step-by-Step Tutorial on Using And Fine-Tuning XGen-7B
  • TPU-V4 하드웨어에 대한 효율적인 LLM 교육을 위해 설계된 Salesforce의 Jaxformer 라이브러리 교육을 활용했습니다. xgen-7b 를 설정하고 실행합니다 XGEN-7B를 로컬로 실행하려면 강력한 기계 (32GB RAM, 고급 GPU)가 필요합니다. 또는 Google Colab Pro와 같은 서비스는 충분한 리소스를 제공합니다
  • 설치 : 환경을 설정 한 후 필요한 라이브러리를 설치하십시오 초기 실행 : 이 코드 스 니펫은 8k-token 모델을 사용하여 기본 실행을 보여줍니다. Salesforce XGen-7B: A Step-by-Step Tutorial on Using And Fine-Tuning XGen-7B 미세 조정 XGEN-7B
  • 미세 조정 XGEN-7B는 여러 단계를 포함합니다 (자세한 지침은 간결하게 생략되지만 원본 텍스트는 포괄적 인 안내서를 제공합니다) :

설치 (이미 위에 덮여 있음)

필요한 모듈을 가져옵니다 (

,

, , )

기본 및 미세 조정 된 모델에 대한 구성을 정의하십시오 데이터 세트를로드하십시오 (예 : Guanaco llama2 데이터 세트)

모델과 토 케이저를로드하십시오 >

pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade

미세 조정 모델을 평가합니다 미세 조정 모델과 토큰 화제를 저장하십시오

결론 사용하기가 간단하지만 XGEN-7B를 특정 작업에 적응하려면 데이터 세트 및 계산 리소스를 신중하게 고려해야합니다. 위에서 설명한 바와 같이 미세 조정 프로세스는이 강력한 LLM을 특정 요구에 맞게 조정하기위한 강력한 프레임 워크를 제공합니다. LLM 및 미세 조정 기술에 대한 자세한 설명 및 리소스를 위해 제공된 링크를 참조하십시오.

위 내용은 Salesforce XGEN-7B : XGEN-7B 사용 및 미세 조정에 대한 단계별 자습서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿