Microsoft의 PHI-3.5 대형 언어 모델 (LLMS) 제품군은 메타 AI와 함께 경쟁 분야에 들어갑니다. 이 튜토리얼은 텍스트 설명을 사용하여 전자 상거래 제품 분류를위한 PHI-3.5 모델을 미세 조정합니다. 우리는 모델 로딩, LORA로 미세 조정 (저 순위 적응)을 다루고, 적응 된 가중치를 기본 모델과 병합하고, 클라우드 접근성을위한 포옹 얼굴에 배치 할 것입니다.
.
이 튜토리얼은 PHI-3.5-MINI, PHI-3.5-VISION 및 MOE (Mix-of-Experts) 모델, PHI-3.5-MOE로 구성된 Microsoft의 PHI-3.5 모델 패밀리를 탐색합니다.
3.5-Mini는 128k 컨텍스트 길이로 다국어 지원에 뛰어나 더 큰 모델과 비슷한 성능을 제공합니다. PHI-3.5-Vision은 멀티 프레임 이미지 이해에 능숙한 가벼운 멀티 모달 모델입니다. 16 명의 전문가와 66 억 개의 매개 변수를 보유한 Phi-3.5 Mooe는 고성능 및 강력한 안전 기능을 제공합니다.
튜토리얼은 Phi-3.5-Mini-Instruct를 사용하는 데 중점을 둡니다
PHI-3.5-MINI-Instruct에 액세스하고 사용합니다
이 섹션은 모델을로드하고 Kaggle 플랫폼에서 추론을 수행함으로써 귀하를 안내합니다.
.
t4x2 gpu 지원 Kaggle 세션으로 시작하십시오
필수 파이썬 패키지를 설치하십시오 : 및 .
라이브러리를 사용하여 모델과 토큰 화제를로드하십시오. 그런 다음 텍스트 생성 파이프 라인이 생성됩니다
추론은 샘플 쿼리로 입증됩니다 ( "세계에서 가장 높은 건물은 무엇입니까?"). 모델의 응답은 정확하고 상세합니다. -
사용자 정의 프롬프트 예제는 콜센터 설정에서 고객 상호 작용을 분류하여 사기 활동을 효과적으로 식별하는 모델의 능력을 보여줍니다.
Kaggle 설정 지원은 제공된 Kaggle 노트북을 참조하십시오.
전자 상거래 분류를위한 미세 조정 PHI-3.5-mini-instruct
이 섹션에서는 전자 상거래 제품 분류 모델을 미세 조정하는이 섹션에 대해 자세히 설명합니다.
transformers
GPU 가속, 포옹 얼굴 및 웨이트 및 바이어스 API 키가 구성된 Kaggle 노트북을 설정합니다.
accelerate
-
필요한 패키지를 설치하십시오 : , , ,
및 . 가중치 및 바이어스 통합도 구성됩니다
transformers
전자 상거래 데이터 세트 (제품 설명 및 범주)를로드 및 전처리합니다. 데이터 세트가 섞여 있고 더 빠른 교육을 위해 서브 세트가 사용됩니다. -
4 비트 양자 모델과 토큰 화제를로드하십시오
-
모델은 기준 성능을 설정하기 위해
미세 조정 전에
를 평가합니다.
-
LORA는 특정 모델 레이어 만 미세 조정하여 교육 효율성을 향상 시키도록 구성됩니다. 하이퍼 파라미터는 훈련 과정을 위해 설정됩니다
감독 된 미세 조정 (SFT) 트레이너가 초기화됩니다
모델은 함수를 사용하여 훈련됩니다. 훈련 손실은 웨이트 및 바이어스를 통해 모니터링됩니다
-
훈련 후 평가는 상당한 정확도 개선을 보여줍니다
-
미세 조정 모델과 토큰 화기가 저장됩니다
-
더 간단한 미세 조정 대안에 대해서는 제안 된 자습서를 참조하십시오
trainer.train()
미세 조정 된 모델을 병합 및 내보내기
이 섹션은 Lora를 기본 모델과 병합하고 포옹 얼굴로 밀어 넣는 것을 설명합니다.
새로운 Kaggle 노트북이 만들어지고 미세 조정 된 모델이 포함 된 저장된 노트북이 입력으로 추가됩니다.
-
Hugging Face API 키는 환경 변수로 설정됩니다. 필요한 패키지가 설치됩니다.
베이스 및 미세 조정 된 모델이로드됩니다
로라는 및 를 사용하여 기본 모델과 병합됩니다.
병합 된 모델은 기능을 확인하기 위해 테스트됩니다
-
병합 된 모델과 토큰 화기는 로컬로 저장된 다음 껴안는 얼굴 허브로 밀려납니다.
모델 병합 및 내보내기에 대한 지원은 제공된 Kaggle 노트북을 참조하십시오.
결론
이 튜토리얼은 Microsoft의 PHI-3.5 모델, 특히 PHI-3.5-Mini-Instruct의 효율성과 기능을 보여 주었으며 미세 조정 및 LORA 적응을 통해 상당한 성능 향상을 보여주었습니다. 미세 조정 모델을 포옹 페이스에 배치하는 과정도 상세하여 모델에 더 광범위하게 사용할 수 있도록 쉽게 액세스 할 수 있습니다. 이 자습서는 추가 LLM 프로젝트 아이디어를 제안함으로써 끝납니다
위 내용은 전자 상거래 분류 데이터 세트에서 미세 조정 PHI-3.5의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!