대형 모델의 역량을 향상시키는 데 데이터가 초점이 되었습니다.
Llama-3가 출시된 지 얼마 지나지 않아 경쟁자들이 등장했는데, 휴대폰에서도 구동이 가능한 소형 모델들이었습니다. 화요일, 마이크로소프트가 자체 개발한 소형 모델 Phi-3를 출시했습니다. 새 모델에는 세 가지 버전이 있으며, 그 중 Phi-3 mini는 38억 개의 매개변수를 갖춘 언어 모델입니다. 3조 3천억 개의 토큰으로 학습한 후 전반적인 성능이 학술 벤치마크 및 내부 테스트에서 우수한 결과를 얻었습니다. Phi-3 mini는 휴대폰 배포에 최적화되어 있지만 성능은 Mixtral 8x7B 및 GPT-3.5와 같은 모델과 비슷합니다. 마이크로소프트는 혁신이 주로 교육에 사용되는 데이터 세트에 있다고 말했습니다. 동시에 Phi-3은 Llama-2와 동일한 아키텍처를 사용하므로 오픈 소스 커뮤니티가 이를 기반으로 더 쉽게 개발할 수 있습니다. 이전에는 Microsoft의 Phi 시리즈 모델이 뜨거운 논의를 불러일으켰습니다. 지난해 6월 Microsoft는 1.3 B 매개 변수를 훈련하기 위해 단 70억 토큰의 "교과서 품질" 데이터를 사용하는 "Textbooks Are All You Need" 논문을 발표했습니다. 모델 phi-1은 좋은 성능을 달성했습니다. 지난 9월 Microsoft는 이 경로를 더욱 탐구하여 1.3B 매개변수 Transformer 아키텍처 언어 모델 Phi-1.5가 강력한 코딩 기능을 보여줄 수 있도록 했습니다. 작년 말 Microsoft가 제안한 Phi-2는 어느 정도 상식적인 능력을 갖추고 있으며 여러 벤치마크 테스트 결과 Llama2 7B, Llama2 13B, Mistral 7B 및 기타 고급 모델의 2.7B 수준을 초과했습니다. Phi-3 기술 보고서: https://arxiv.org/abs/2404.14219방금 제안된 phi-3-mini는 3조 3천억 개의 토큰 모델에서 훈련된 38억 개의 매개변수 언어입니다. 실험 테스트에 따르면 phi-3-mini의 전체 성능은 Mixtral 8x7B 및 GPT-3.5와 같은 모델과 비슷합니다. 예를 들어 phi-3-mini는 MMLU에서 69%, MT-bench에서 8.38에 도달합니다. phi 시리즈 모델에 대한 Microsoft의 이전 연구에서는 고품질 "소규모 데이터"를 통해 더 작은 모델이 우수한 성능을 달성할 수 있음을 보여주었습니다. phi-3-mini는 강력하게 필터링된 네트워크 데이터 및 합성 데이터(phi-2와 유사)에 대해 교육을 받았으며 견고성, 보안 및 채팅 형식을 추가로 조정했습니다. 또한 연구팀은 phi-3-small 및 phi-3-medium이라고 하는 4.8T 토큰에 대해 훈련된 7B 및 14B 모델에 대한 초기 매개변수 확장 결과도 제공합니다. 둘 다 phi-3보다 큽니다. - 미니가 더 능력이 좋습니다. 표준 오픈 소스 벤치마크에서 phi-3-mini와 phi-2, Mistral-7b-v0.1, Mixtral-8x7B, Gemma 7B, Llama-3-The instruct8B와 GPT-3.5 간의 비교 결과는 아래 표에 나와 있습니다. 비교 가능성을 보장하기 위해 모든 결과는 정확히 동일한 파이프라인을 통해 얻어집니다. Phi-3-mini는 책임 있는 인공 지능에 대한 Microsoft 원칙에 따라 개발되었습니다. 대규모 모델을 보호하기 위한 전반적인 접근 방식에는 교육 후 보안 조정, 레드팀 테스트, 자동화된 테스트 및 수십 개의 RAI 위험 범주 평가가 포함됩니다. Microsoft는 [BSA+ 24]에서 영감을 얻은 수정된 유용하고 무해한 기본 설정 데이터 세트[BJN+ 22, JLD+ 23]와 내부에서 생성된 여러 데이터 세트를 활용하여 보안 사후 교육을 위한 RAI 위험 범주를 해결합니다. Microsoft의 독립 레드팀은 교육 후 프로세스에서 개선이 필요한 영역을 추가로 식별하기 위해 phi-3-mini를 재검토했습니다. 레드팀의 피드백을 바탕으로 연구팀은 훈련 후 데이터 세트를 개선하기 위해 추가 데이터 세트를 편집했습니다. 이 프로세스를 통해 그림 3에 표시된 것처럼 유해한 응답률이 크게 감소했습니다. 아래 표는 phi-2, Mistral-7B-v0.1, Gemma 7B를 사용한 phi-3-mini-4k 및 phi-3-mini-128k의 내부 다중 라운드 대화 RAI 벤치마크 결과를 보여줍니다.이 벤치마크는 GPT-4를 활용하여 5개 카테고리에 걸쳐 여러 라운드의 대화를 시뮬레이션하고 모델 응답을 평가합니다. Microsoft는 LLM 기능 측면에서 phi-3-mini 모델이 대형 모델과 비슷한 수준의 언어 이해 및 추론 기능에 도달했지만 일부에서는 실패한다고 말했습니다. 작업 여전히 크기에 따라 근본적으로 제한됩니다. 예를 들어, 모델에는 TriviaQA의 낮은 등급에서 볼 수 있는 "사실적 지식"을 많이 저장할 수 있는 기능이 없습니다. 그러나 연구자들은 이러한 문제가 검색 엔진 개선을 통해 해결될 수 있다고 믿습니다. 참고 내용 : https://news.ycombinator.com/item?id=40127806위 내용은 마이크로소프트, Llama-3보다 성능 뛰어나고 휴대폰에서도 구동 가능한 Phi-3 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!