Tülu 3 : 언어 모델에 대한 혁신적인 오픈 소스 후 훈련 프레임 워크
NLP (Natural Language Processing) 분야는 사후 훈련 기술이 언어 모델 기능을 향상시키는 데 중추적 인 역할을하는 놀라운 진전을 목격했습니다. OpenAi의 GPT-4 및 Anthropic의 Claude와 같은 독점 모델이 시장을 지배하지만, 개방 소스 대안은 종종 훈련 후 데이터 및 방법론에 대한 접근이 제한되어 있기 때문에 뒤쳐져 있습니다. Tülu 3은 혁신적인 기술과 엄격한 평가 방법을 통합 한 최첨단의 완전한 오픈 소스 사후 훈련 프레임 워크를 도입하여 이러한 격차를 해소합니다. 이 기사는 교육 과정과 접근성을 탐구하는 Tülu 3 405B AI 모델을 탐구합니다.
주요 학습 목표 :
Tülu 3 Open-Source 모델을 이해하십시오
모델의 기능을 파악하십시오.
Tülu 3의 4 단계 후 훈련 파이프 라인을 탐색하십시오
Tülu 3 405b AI 챗봇에 액세스하는 방법을 배우십시오.
Llama 3.1 8B-Instruct와 같은 기존 모델과 Tülu 3의 성능을 비교하십시오.
이 기사는 데이터 과학 블로그의 일부입니다.
목차 :
Tülu 3은 무엇입니까?
Tülu 3 데이터
훈련 방법론
평가 방법론 -
접근 llama-3.1-tulu-3-405b
1 단계 : Huggingface를 통해 모델을로드합니다
2 단계 : vllm 를 사용한 실행
3 단계 : 채팅 템플릿을 활용
-
성능 및 비교
Tülu 3의 주요 기여
- 결론
자주 묻는 질문
Tülu 3은 무엇입니까?
Allen Institute for AI와 Washington University 간의 협력을 통해 개발 된 Tülu 3은 후 훈련 후 데이터 세트, 방법론 및 평가 프레임 워크에 대한 완전한 투명성을 보장합니다. LLAMA 3.1 기본 모델을 기반으로 한 Tülu 3은 GPT-4O-MINI 및 Claude 3.5-Haiku와 같은 폐쇄 된 모델과 경쟁하는 다른 명령 조정 된 오픈 모델의 성능을 능가합니다. 다음을 포함하여 다양한 기술 영역에서 오픈 소스 언어 모델을 개선하도록 설계되었습니다.
지식 검색 (MMLU 벤치 마크)
추론 (Bigbenchhard, Drop)
수학적 기능 (gsm8k, 수학 데이터 세트)
코딩 능력 (Humaneval, Codealpaca)
지시 준수 (ifeval, alpacaeval 2)
안전 및 규정 준수 (Tülu 3 Safety Suite)
Tülu 3 Data
데이터는 교육 및 정제 언어 모델에서 가장 중요합니다. Tülu 3은 공개적으로 이용 가능한 리소스를 합성 적으로 생성 된 데이터와 결합하는 다양하고 세 심하게 선별 된 데이터 세트를 사용합니다. 출처는 다음과 같습니다.
공개 데이터 세트 (Flan V2, Open Assistant, 로봇 없음, WildChat)
스킬 별 데이터 세트 (Numinamath, Sciriff, OpenMathInstruct)
에 따른 수학, 코딩 및 교육과 같은 기술에 대한 페르소나 구동 접근법을 사용하여 생성 된 합성 데이터 세트
비준수 및 안전 데이터 (Wildjailbreak, Coconot, Wildguardmix)
-
중요한 단계에는 평가 데이터가 훈련 데이터와 겹치지 않도록 8 그램 매칭을 사용하여 테스트 세트 오염을 방지하기위한 신속한 오염 제거가 포함됩니다.
훈련 방법론 -
-
Tülu 3은 4 단계 후 훈련 파이프 라인을 사용합니다
- 데이터 큐 레이션 :
프롬프트는 다양한 데이터 세트에서 선별되고 특정 기술을 위해 합성 적으로 생성되어 엄격한 오염 제거가 진행됩니다.
감독 된 미세 조정 (SFT) : 고품질의 명령어를 따르는 데이터가 모델을 훈련시킵니다. 데이터 혼합 실험은 작업에 대한 성능을 최적화합니다
선호도 미세 조정 (DPO) :
Pairwise 기본 설정 데이터 미세 조명 모델. 정책 데이터는 다른 모델과의 Tülu 3 출력을 비교합니다
검증 가능한 보상 (RLVR)을 가진 강화 학습 : 이 소설 RL 접근 방식은 검증 가능한 정답 만 보상합니다. 특히 수학 및 정확한 지시에 유리합니다.
평가 방법론
Tülu 3은 다음을 포함하는 표준화되고 투명한 평가 프레임 워크 인 Tülu 3 Eval을 소개합니다.
개발 평가 (지침 모델 개선)
보이지 않는 평가 (과적 및 일반화 측정)
안전 평가 (준수 및 견고성 평가)
벤치 마크에는 MMLU, GSM8K, Bigbenchhard, Humaneval 및 Alpacaeval 2가 포함됩니다.
접근 llama-3.1-Tulu-3-405b
Tülu 3은 고급 교육을 따르는 모델 패밀리입니다. 다음은 llama-3.1-tulu-3-405b : 를 사용하는 방법은 다음과 같습니다
1 단계 : Huggingface를 통해 모델을로드하는
2 단계 : vllm 로 실행됩니다
3 단계 : 채팅 템플릿 사용 -
성능 및 비교 -
Tülu 3은 Llama 3.1을 능가하는 Open-Weight 모델 중 최첨단 결과를 달성합니다. 70B 모델 척도에서 Claude 3.5 Haiku 및 GPT-4O-Mini와 경쟁합니다.
Tülu 3의 주요 기여도 -
Tülu 3 개방 언어 모델 후 훈련 :
위 내용은 Tülu 3 405b : 개방 언어 모델 발전 후 훈련의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!