이 포괄적 인 과정은 LLM (Large Language Models)을 탐구하며, 두 가지 별개의 학습 경로를 제공합니다. LLM 과학자 트랙은 최적의 LLM을 구축하기위한 LLM 과학자 트랙과 LLM 기반 애플리케이션을 개발하고 배포하기위한 LLM 엔지니어 트랙입니다. 대화식 버전은 HuggingChat (권장) 또는 chatgpt를 통해 사용할 수 있습니다. LLM 과학자 트랙 :
이 경로는 최첨단 기술을 사용하여 LLM 구조 마스터 링에 중점을 둡니다.
1. LLM 아키텍처 : 딥 변압기 아키텍처 지식은 필수적이지 않지만 핵심 프로세스를 이해하는 것이 중요합니다. 텍스트-내 번호 변환 (토큰 화),주의 메커니즘을 통한 토큰 처리 및 다양한 샘플링 전략을 통한 텍스트 생성. 주요 영역에는 건축 진화 이해, 토큰 화 전략,주의 메커니즘 (자체 소지 및 변형) 및 텍스트 생성 샘플링 기술이 포함됩니다. 2. 사전 훈련 모델 :
계산 집약적이지만 사전 훈련을 파악하는 것이 중요합니다. 여기에는 데이터 준비 (큐 레이션, 청소, 중복 제거), 분산 교육 (데이터, 파이프 라인 및 텐서 병렬 처리), 교육 최적화 (적응 학습 속도, 그라디언트 클리핑) 및 주요 지표의 세심한 모니터링이 포함됩니다.
3. 훈련 후 데이터 세트 : 지침 및 답변 (감독 된 미세 조정) 또는 선호도 쌍 (기본 설정 정렬)으로 구성된 교육 후 데이터 세트가 중요합니다. 이 섹션은 스토리지 형식, 합성 데이터 생성, 데이터 향상 기술 및 강력한 품질 필터링 방법을 다룹니다.
4. 감독 된 미세 조정 (SFT) : SFT는 기본 모델을 유용한 보조원으로 변환합니다. 여기에는 교육 기술 (LORA 및 QLORA와 같은 전체 미세 조정 대 매개 변수 효율적인 방법), 주요 교육 매개 변수, 분산 교육 전략 및 효과적인 모니터링 기술을 이해하는 것이 포함됩니다.
5. 선호도 정렬 :
6. 평가 : 신뢰할 수있는 LLM 평가가 중요합니다. 이 섹션에서는 자동 벤치 마크, 인간 평가, 모델 기반 평가 및 모델 성능을 향상시키기 위해 피드백 신호 분석의 중요성을 살펴 봅니다.
7. 양자화 : 이 섹션은 다양한 정밀 수준, LLAMA.CPP 및 GGUF와 같은 도구, GPTQ, AWQ, SmoothQuant 및 ZeroQuant와 같은 고급 기술을 다루는 매개 변수 및 활성화 양자화를 통해 LLM의 계산 및 메모리 비용을 줄이는 기술을 탐구합니다. . 8. 새로운 트렌드 : 이 섹션은 모델 병합, 멀티 모달 모델, 해석 성 기술 (ableration 포함) 및 테스트 시간 계산 스케일링과 같은 고급 주제를 탐구합니다.
llm 엔지니어 트랙 : 이 경로는 생산 준비 LLM 애플리케이션 구축에 중점을두고 모델 확대 및 배포를 강조합니다.
1. LLMS 실행 : 2. 벡터 스토리지 구축 : >이 섹션에서는 문서 섭취, 분할, 임베딩 모델 및 벡터 데이터베이스를 포함하여 검색 증강 생성 (RAG) 파이프 라인을위한 벡터 스토리지를 작성합니다.
3. 검색 증강 생성 (RAG) : 이 섹션은 오케스트레이터, 리트리버, 메모리 관리 및 평가 지표에 중점을 둔 Rag 파이프 라인을 구축하는 방법을 설명합니다.
4. Advanced Rag : 이 섹션은 구조화 된 데이터베이스, 에이전트 기반 시스템, 후 처리 방법 및 DSPY와 같은 프레임 워크를 사용한 프로그래밍 LLM 최적화와 같은 고급 래그 기술을 다룹니다.
5. 추론 최적화 : 이 섹션은 로컬 배포 옵션을 다루고, Gradio 및 Streamlit, 서버 측 배포 전략 및 제한된 환경에 대한 에지 배포와 같은 프레임 워크를 사용하여 데모를 생성합니다.
7. LLMS 확보 : 이 섹션은 프롬프트 해킹, 백도어 및 방어 조치를 포함하여 LLM이 제기 한 고유 한 보안 문제를 해결합니다.
결론 : 이 과정은 실습 학습과 탐험을 장려하여 다양한 도구와 기술을 사용하여 광대 한 LLM 환경 내에서 선택된 영역에서 전문 지식을 개발할 수있는 실험을 제안합니다.
위 내용은 큰 언어 모델 과정의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!