AI의 풍경은 빠르게 발전하고 있으며, 언어 모델, 특히 추론 및 문제 해결 작업을 위해 설계된 언어 모델은이 혁명의 핵심입니다. AI에서 이러한 획기적인 획기적인 중 하나는 Microsoft Research에서 개발 한 14 억 개의 매개 변수 모델 인 PHI-4입니다. PHI-4를 전임자 및 기타 모델과 차별화하는 것은 훈련에 대한 혁신적인 접근 방식, 특히 합성 데이터 사용입니다. PHI-4는 깎아 지른 수량보다 데이터 품질을 우선시함으로써 추론 기능, STEM 중심 질문 답변 및 코딩 작업의 현저한 개선을 보여줍니다.
이 블로그에서는 PHI-4를 자세히 살펴보고 아키텍처, 교육 프로세스 및 훈련 후 혁신의 모든 구성 요소를 분석합니다. 우리는 주요 강점을 무너 뜨리고 개선 영역에 대해 논의하며 크기가 훨씬 더 큰 다른 언어 모델보다 성능이 우수한 방법을 설명합니다. 이 깊은 다이빙이 끝날 무렵, PHI-4가 다른 모델이 아니라 자연 언어 처리 분야 (NLP)에서 진정한 도약을 이해할 수 있습니다.
이 기사는 Data Science Blogathon 의 일부로 출판되었습니다 .
핵심적으로 PHI-4는 Microsoft Research에서 개발 한 14 억 개의 매개 변수 언어 모델입니다. 이 모델은 PHI-3과 같은 PHI 제품군의 이전 반복의 성공을 기반으로하지만 추론이 많은 작업에 대한 성능을 크게 향상시키는 몇 가지 주요 혁신을 도입합니다. PHI-4는 주로 웹 컨텐츠, 서적 및 코드 리포지토리와 같은 대량의 유기 데이터에 주로 의존하는 다른 많은 대형 언어 모델 (LLM)과 달리 전략적으로 교육 파이프 라인에 많은 양의 합성 데이터를 통합합니다. 다른 훈련 혁신과 결합 된 합성 데이터에 중점을두면 PHI-4는 주요 영역, 특히 STEM 관련 질문 응답 및 복잡한 문제 해결에서 더 나은 성능을 달성 할 수 있습니다.
AI 커뮤니티에서 데이터는 교육 모델의 생명체입니다. 일반적으로 LLM은 웹에서 긁힌 대규모 데이터 세트를 사용하여 교육을 받거나 책과 논문에서 선별됩니다. 이 유기 데이터는 유용하지만 종종 불일치, 관련이없는 정보 또는 모델의 추론 능력을 강화할 수있는 구조화 된 문제가 포함됩니다. 합성 데이터가 들어오는 곳입니다.
팀은 인위적으로 합성 데이터를 생성하여 특정 교육 목표를 충족시켜 모델의 학습 과정을 안내하는 데 매우 효과적인 도구입니다. PHI-4의 경우 합성 데이터는 강력한 추론과 문제 해결 능력을 장려하는 고품질 데이터 세트를 구축하는 데 도움이됩니다.
PHI-4의 합성 데이터는 무작위로 생성 된 것이 아니라 고급 기술의 조합을 사용하여 신중하게 제작됩니다.
PHI-4는 이러한 기술을 우선시함으로써 문제를보다 지능적으로 해결하는 동시에 순수한 유기 데이터 세트에서 발생할 수있는 편견을 줄입니다.
PHI-4의 인상적인 성능은 합성 데이터 사용에서만 나오지 않습니다. 모델의 교육 커리큘럼은 또한 성공에 중요합니다. PHI-4의 제작자는 유기 소스 및 합성 데이터를 포함하여 균형 잡힌 데이터 유형의 혼합을 통합 한 정교한 교육 프로세스를 설계했습니다.
PHI-4 모델은 140 억 개의 매개 변수를 갖춘 디코더 전용 변압기 아키텍처를 사용하며 처음에는 4096 토큰의 컨텍스트 길이로 작동합니다. 이러한 컨텍스트 길이는 후속 중간 트레이닝 단계 동안 나중에 16K 토큰으로 증가합니다. 이 아키텍처는 PHI-3 메디움 모델과 많은 유사점을 공유하지만 몇 가지 개선 사항을 소개합니다. 특히 PHI-4는 다국어 지원을 향상시키는 Tiktoken 토큰 화기를 채택하며 사용하지 않는 토큰을 포함하여 어휘 크기가 100,352 개입니다. 또한, PHI-4는 4K 컨텍스트 길이에 걸쳐 완전히주의를 기울여 PHI-3- 메디움에 사용 된 2K 슬라이딩 윈도우 접근법에서 벗어난다.
이 팀은 선형 워밍업 및 붕괴 일정에 따라 약 10 조 토큰을 사용하여 모델을 사전 치료했습니다. 그들은 피크 학습 속도를 0.0003으로 설정하고, 0.1의 일정한 중량 붕괴를 적용했으며, 5760의 글로벌 배치 크기를 사용했습니다. 그들은 짧은 기간 실행을 보간하고 학습 속도 워밍업 단계를 보간하여 모델 안정성을 보장하여 미세 조정했습니다. 사전 조정 후, 모델은 원래의 4K 컨텍스트 길이를 16K 토큰으로 확장하기 위해 간단한 중간 훈련 단계를 거쳤습니다.
미리 훈련 된 모델은 일반적으로 교육을 따르는 작업에서 잘 수행되지 않기 때문에 연구원들은 특정 형식의 답변이 필요한 단순-이벤과 같은 0- 샷 평가에 의존하지 않기로 결정했습니다. 대신, 그들은 사전 조정을위한 맞춤형 평가 접근법을 개발했으며, 이는 다양한 작업에 대한 로그 불명예 평가와 소수의 샷 프롬프트를 결합했습니다. 예를 들어, 팀은 MMLU (5-SHOT), MMLU-PRO 및 ARCC (1- 샷)와 같은 작업에 대해 Log-Likelihood 평가를 사용했습니다. 또한 TRIVIAQA (TQA), MBPP, MATH 및 GSM8K와 같은 작업에 대한 1, 3, 4 및 8 개의 소수 예제를 사용하여 모델을 교육하여 필요한 답변 형식을 따르고 올바른 솔루션을 추출하도록 도와주었습니다.
PHI-4의 중간 훈련 단계에서 컨텍스트 길이는 원래 4K 토큰에서 16K 토큰으로 확장됩니다. 이 단계에서 연구자들은 다양한 유형의 데이터가 긴 상황에서 모델의 성능에 어떤 영향을 미치는지 조사하기 위해 일련의 절제 연구를 수행합니다. 그들은 자연스럽게 더 긴 컨텍스트를 합성 데이터와 비교하는 데이터 소스를 비교하며, 여기서 더 짧은 시퀀스는 더 긴 시퀀스를 만들어 더 긴 시퀀스를 만들어냅니다. 결과는 본질적으로 긴 맥락을 가진 데이터에 대해 교육을받을 때 모델이 더 잘 수행된다는 것을 보여줍니다.
이 팀은 학술 논문, 서적 및 코드와 같은 고품질의 비 합성 데이터를 필터링하여 데이터 세트를 개선합니다. 그들은 8K 토큰보다 긴 샘플을 분리하고 16K 토큰 이상에 더 많은 무게를줍니다. 새로운 합성 데이터 세트는 4K 토큰보다 긴 시퀀스로 생성됩니다. 최종 데이터 세트 혼합물에는 30% 긴 컨텍스트 데이터와 70%의 리콜 토큰이 포함되어 있습니다. 증가 된 컨텍스트 길이를 수용하기 위해 팀은 로터리 위치 인코딩 (로프) 기본 주파수를 250K로 설정합니다. 최대 학습 속도를 10 배 줄이고 2,500 억 개의 토큰으로 모델을 훈련시킵니다.
PHI-4의 긴 맥락을 처리하는 능력을 평가하기 위해 연구원들은 바늘-인-하이 스택 또는 통치자와 같은 합성 벤치 마크에 의존하기보다는 다양한 실제 작업을 강조합니다. 팀은 헬멧 [YGH 24] 평가 제품군에서 이러한 작업을 선택하고 각 범주에 대한 5 개의 실행에 대한 결과를 평균화합니다.
평가 프레임 워크에는 다음과 같은 작업이 포함됩니다.
이 포괄적 인 평가 전략은 다양한 실제 작업에서 PHI-4의 장기 텍스트 기능을 철저히 테스트합니다. 모델의 실제 적용 가능성을 반영합니다.
교육 후 훈련은 사전에 사기꾼 모델을 사용자가 할 수있는 AI 조수로 변환하는 것을 목표로합니다.
안전하게 상호 작용합니다. PHI-4는 사전에 사전 된 모델을 한 라운드의 SFT, 중추적 인 토큰 검색 방법의 1 라운드 DPON 데이터 및 전체 길이 기본 설정 쌍의 DPO 라운드와 정렬합니다. 이 모델은 표준 ChatML 형식을 사용하여 채팅 미세 조정을 겪습니다. 두 라운드의 대화에 대한 예제 사용 템플릿은 다음과 같습니다.
사전 조정이 완료되면 PHI-4는 추가 미세 조정이 발생하는 훈련 후 단계로 들어갑니다. 이 단계는 모델의 추론 능력을 정제하고 출력의 품질을 향상시키는 데 중점을 둡니다. 교육 후 혁신은 PHI-4의 인상적인 성능에 기여합니다.
PHI-4의 기능을 평가하려면 표준 벤치 마크에서 성능을 조사해야합니다. PHI-4는 몇 가지 중요한 작업에서 이전 모델과 많은 대형 모델보다 지속적으로 성능이 우수합니다.
PHI-4는 특히 줄기 중심의 질문 답변 (예 : 대학원 수준의 질문에 대한 GPQA) 및 수학 대회 (MATH)에서 빛을 발합니다. LLAMA-3과 같은 모델보다 작음에도 불구하고 PHI-4는 이러한 추론이 많은 작업에서 비슷하거나 우수한 결과를 얻습니다. 이것은 모델의 합성 데이터를 효과적으로 사용하고 구조화되고 논리적 인 문제 해결에 중점을 둔 증거입니다.
예를 들어, PHI-4는 소규모 모델 임에도 불구하고 GPQA 및 Math와 같은 많은 추론 벤치 마크에서 교사 모델 인 GPT-4를 능가합니다. 고품질 합성 데이터와 혁신적인 교육 기술을 통합하면 PHI-4는이 분야에서 훨씬 더 큰 모델의 기능을 능가 할 수있었습니다.
코딩 작업에서 PHI-4는 GPT-4 MINI 및 QWEN 2.5와 같은 모델보다 우수한 모델도 탁월합니다. Humaneval에서 알고리즘 문제를 해결하든보다 복잡한 프로그래밍 문제를 해결하든, PHI-4의 논리를 효과적으로 적용 할 수있는 능력은 코딩 공간에서 최고의 성과를 제공합니다.
PHI-4는 유해하거나 편향된 콘텐츠를 생성하는 것에 대한 강력한 보호 수단을 보여 주어 벤치마킹 중 윤리적이고 책임있는 AI 상호 작용을 보장합니다.
PHI-4를 로컬로 운영하면 시스템에서 직접이 고급 AI 모델과 상호 작용하여 테스트 또는 응용 프로그램 개발을위한 편리함과 유연성을 제공 할 수 있습니다. 아래 단계를 따라 설정하려면 다음을 설정하십시오.
Ollama는 PHI-4와 같은 AI 모델과의 실행 및 상호 작용을 용이하게하는 도구입니다. 시스템에 Ollama를 설치하여 시작하십시오. Ollama의 공식 웹 사이트에서 자세한 설치 지침을 찾을 수 있습니다.
Ollama가 설치되면 터미널 또는 PowerShell에서 단일 명령으로 PHI-4 모델을 실행할 수 있습니다.
Ollama Run vanilj/phi-4
이 명령은 PHI-4 모델을 초기화하고 CLI에서 직접 상호 작용할 수 있습니다. 채팅이나 질문을 즉시 시작할 수 있습니다.
PHI-4를 워크 플로 또는 애플리케이션에 통합하는 것과 같은 고급 사용 사례는 Ollama와 함께 Langchain을 사용할 수 있습니다. Langchain은 프로그래밍 방식으로 언어 모델로 작업하기위한 도구를 제공합니다.
%PIP 설치 -U Langchain -Ollama
langchain_core.prompts import ChatPromptTemplate langchain_ollama.llms import ollamallm에서 템플릿 = "" "질문 : {Question} 답 : 단계별로 생각합시다. "" " 프롬프트 = chatprompttemplate.from_template (템플릿) model = ollamallm (model = "vanilj/phi-4") 체인 = 프롬프트 | 모델 print (chain.invoke
완벽한 모델은 없으며 PHI-4에는 고유 한 과제가 있습니다. 과적은 AI 개발에서 일반적인 관심사입니다. 모델이 교육 데이터에 너무 전문화되어 일반화를 해칠 때 발생합니다. PHI-4는 데이터 오염 제거 프로세스를 사용하여이를 해결합니다. 이를 통해 테스트 데이터가 교육에 포함되어 있지 않아 과적으로 적합한 위험이 줄어 듭니다.
PHI-4는 2024 년 11 월 AMC-10 및 AMC-12 수학 대회와 같은 신선한 데이터 세트를 사용함으로써 교육 세트를 넘어서 일반화하고 새로운 작업에서 훌륭하게 성과를 거둘 수 있음을 보여주었습니다. 이는 PHI-4가 실제 응용 프로그램을위한 강력하고 신뢰할 수있는 도구로 유지되도록하는 데 중요합니다.
PHI-4는 언어 모델의 세계에서 게임 체인저입니다. 혁신적인 합성 데이터 생성, 최첨단 교육 기술 및 훈련 후 세련미의 조합은 다른 많은 모델과 차별화됩니다. PHI-4는 훈련에 대한 올바른 접근 방식으로 품질이 수량을 능가 할 수 있음을 보여줍니다. 이는 많은 현대 모델보다 작음에도 불구하고 추론이 많은 작업, STEM Q & A 및 코딩 문제에서 우수한 성능을 향상시킬 수 있음을 보여줍니다.
PHI-4는 도전이없고, 특히 수업을 따르는 것과 사실 정확도에 관한 것이 아닙니다. 그러나 논리적 추론과 문제 해결에서의 놀라운 능력은 AI 공간에서 중요한 발전이되었습니다. AI가 발전함에 따라 PHI-4의 합성 데이터 사용은이 분야의 향후 개발을위한 모델을 설정합니다. 언어 모델로 가능한 것의 경계를 넓히는 데 도움이됩니다.
A. PHI-4는 디코더 전용 변압기 아키텍처를 기반으로하는 대규모 최첨단 AI 모델입니다. PHI-4는 컨텍스트 길이를 16K 토큰으로 증가시켜 PHI-3 메디움과 같은 모델을 기반으로합니다. 또한 다국어 지원을 향상시키기 위해 Tiktoken을 포함한 개선 된 데이터 전처리 기술을 소개합니다.
Q2. 합성 데이터가 PHI-4를 훈련시키는 데 중요한 이유는 무엇입니까?A. 합성 데이터는 모델이 장기 텍스트 작업을보다 효과적으로 처리하는 데 도움이되므로 PHI-4 교육에 중요한 역할을합니다. 실제 데이터를 합성 적으로 생성 된 시퀀스와 결합하여 PHI-4는 다양한 시나리오에서 더 나은 일반화합니다. 이것은 대규모 데이터 세트에서 추론이 필요한 작업에 대한 성능을 향상시킵니다.
Q3. PHI-4 교육 과정의 주요 단계는 무엇입니까?A. PHI-4의 훈련에는 3 단계가 포함됩니다. 사전 계통은 다양한 데이터 소스를 사용합니다. 중간 트레인은 컨텍스트 길이를 4K에서 16K 토큰으로 확장합니다. 사후 훈련에는 SFT와 같은 미세 조정 기술, DPO를 통한 강화 학습 및 전 사전 조정 단계의 토큰 샘플링 (PTS)이 포함됩니다.
Q4. PHI-4는 실제 작업에서 어떻게 수행합니까?A. PHI-4는 질문 답변, 요약 및 검색 세대를 포함하여 광범위한 실제 벤치 마크를 탁월합니다. PHI-4는 긴 문서에 대한 추론 작업을 탁월하며, Helm 평가 제품군의 다양한 데이터 세트를 사용하여 평가했습니다.
이 기사에 표시된 미디어는 분석 Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.
위 내용은 PHI-4 : 합성 데이터로 언어 모델을 재정의합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!