합성 데이터에 주로 사용되는 Llama-3를 능가하는 성능입니다.
NVIDIA의 일반 대형 모델 Nemotron이 최신 3,400억 매개변수 버전을 오픈소스화했습니다. 이번 금요일에 NVIDIA는 Nemotron-4 340B 출시를 발표했습니다. 여기에는 개발자가 의료, 금융, 제조, 소매 등 모든 산업 분야의 상용 애플리케이션에 사용할 수 있는 LLM(대형 언어 모델) 교육용 합성 데이터를 생성하는 데 사용할 수 있는 일련의 개방형 모델이 포함되어 있습니다. 고품질 교육 데이터는 맞춤형 LLM의 응답성, 정확성 및 품질에 중요한 역할을 하지만 강력한 데이터 세트는 비용이 많이 들고 액세스하기 어려운 경우가 많습니다. Nemotron-4 340B는 고유한 개방형 모델 라이센스를 통해 개발자에게 합성 데이터를 생성할 수 있는 확장 가능한 무료 방법을 제공하여 사람들이 강력한 LLM을 구축하는 데 도움을 줍니다. Nemotron-4 340B 시리즈에는 LLM 교육 및 개선을 위한 합성 데이터 생성을 위한 파이프라인을 형성하는 기본, 지시 및 보상 모델이 포함되어 있습니다. 이러한 모델은 데이터 관리, 사용자 정의 및 평가를 포함한 엔드투엔드 모델 교육을 위한 오픈 소스 프레임워크인 NVIDIA NeMo와 함께 사용하도록 최적화되었습니다. 또한 오픈 소스 NVIDIA TensorRT-LLM 라이브러리를 사용한 추론에 최적화되어 있습니다. Nvidia에서는 이제 Nemotron-4 340B를 Hugging Face에서 다운로드할 수 있다고 밝혔습니다. 개발자는 곧 ai.nvidia.com에서 이러한 모델에 액세스할 수 있게 되며, 어디에서나 배포할 수 있는 표준 애플리케이션 프로그래밍 인터페이스를 갖춘 NVIDIA NIM 마이크로서비스로 패키징됩니다. Hugging Face 다운로드: https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911대형 언어 모델은 개발자가 크고 다양한 레이블이 지정된 데이터세트에 액세스하지 않고도 합성 교육 데이터를 생성할 수 있도록 도와줍니다. Nemotron-4 340B Instruct 모델은 실제 데이터의 특성을 모방하는 다양한 합성 데이터를 생성하여 데이터 품질을 향상시키고 이를 통해 다양한 도메인에서 맞춤형 LLM의 성능과 견고성을 향상시킵니다. AI 생성 데이터의 품질을 향상시키기 위해 개발자는 Nemotron-4 340B 보상 모델을 사용하여 고품질 응답을 필터링할 수 있습니다. Nemotron-4 340B Reward는 유용성, 정확성, 일관성, 복잡성 및 장황함이라는 5가지 속성을 기반으로 응답에 점수를 매깁니다. 현재 AI2가 보상 모델의 성능, 보안, 결함을 평가하는 Hugging Face RewardBench 순위에서 1위를 차지하고 있습니다. 이 합성 데이터 파이프라인에서는 (1) Nemotron-4 340B Instruct 모델을 사용하여 텍스트 기반 합성 출력을 생성합니다. 그런 다음 평가 모델 (2) Nemotron-4 340B Reward는 생성된 텍스트를 평가하고 피드백을 제공하여 반복적인 개선을 안내하고 합성된 데이터의 정확성을 보장합니다. 연구원은 포함된 HelpSteer2 데이터 세트와 결합된 고유한 독점 데이터를 사용하여 Nemotron-4 340B 기본 모델을 사용자 정의하여 고유한 교육 모델 또는 보상 모델을 만들 수도 있습니다. ㅋㅋㅋ Nemotron-4-340B-Base 모델 아키텍처는 인과 주의 마스크, RoPE(회전 위치 임베딩), SentencePiece 토크나이저 등을 갖춘 표준 디코더 전용 Transformer 아키텍처입니다. Nemotron-4-340B-Base의 하이퍼파라미터는 표 1에 나와 있습니다. 여기에는 94억 개의 내장 매개변수와 3,316억 개의 비내장 매개변수가 있습니다.
다음 표는 Nemotron-4-340B-Base 모델의 일부 훈련 세부 사항을 보여줍니다. 이 표는 각 반복 시간 및 모델 FLOP/s 활용도를 포함하여 배치 크기 변화의 3단계를 요약합니다. 강력한 보상 모델을 개발하기 위해 NVIDIA는 HelpSteer2라는 10,000개의 인간 선호도 데이터 세트를 수집하여 공개했습니다.데이터 세트 주소: https://huggingface.co/datasets/nvidia/HelpSteer2회귀 보상 모델 Nemotron-4-340B-Reward는 Nemotron-4-340B-Base 모델을 기반으로 구축되었습니다. 그리고 마지막 소프트맥스 레이어를 새로운 보상 헤더로 교체하세요. 이 헤더는 마지막 레이어의 숨겨진 상태를 HelpSteer 속성(유용성, 정확성, 일관성, 복잡성, 자세한 정도)의 5차원 벡터로 매핑하는 선형 투영입니다. 추론 과정에서 이러한 속성 값은 가중치 합계를 통해 전체 보상으로 집계될 수 있습니다. 이 보너스 모드는 Nemotron-4-340B-Instruct 교육을 위한 견고한 기반을 제공합니다. 연구에 따르면 이러한 모델은 RewardBench에서 매우 잘 수행되는 것으로 나타났습니다. NeMo로 미세 조정되고 TensorRT-LLM으로 추론 최적화 오픈 소스 NVIDIA NeMo 및 NVIDIA TensorRT 사용 -LLM, 개발자는 지침 및 보상 모델의 효율성을 최적화하여 합성 데이터를 생성하고 응답을 채점할 수 있습니다. 모든 Nemotron-4 340B 모델은 TensorRT-LLM을 사용하여 최적화되어 단일 가중치 행렬이 여러 GPU와 서버에 걸쳐 분할되어 대규모로 효율적인 추론을 달성하는 모델 병렬성 유형인 텐서 병렬성을 활용합니다. Nemotron-4 340B Base는 9조 개의 토큰으로 훈련되었으며 NeMo 프레임워크를 사용하여 특정 사용 사례 또는 도메인에 맞게 사용자 정의할 수 있습니다. 이 미세 조정 프로세스는 대량의 사전 훈련 데이터를 활용하고 특정 다운스트림 작업에 대해 보다 정확한 출력을 제공합니다. 그중 NeMo 프레임워크는 지도형 미세 조정 및 LoRA(낮은 순위 적응)와 같은 매개변수 효율적인 미세 조정 방법을 포함한 다양한 사용자 정의 방법을 제공합니다. 모델 품질을 향상시키기 위해 개발자는 NeMo Aligner 및 Nemotron-4 340B Reward로 주석이 달린 데이터 세트를 사용하여 모델을 정렬할 수 있습니다. 정렬은 대규모 언어 모델을 훈련하는 데 중요한 단계입니다. 여기서 모델 동작은 RLHF와 같은 알고리즘을 사용하여 미세 조정되어 출력이 안전하고, 정확하고, 상황에 맞게, 명시된 목표와 일치하도록 보장합니다. 엔터프라이즈급 지원과 안전한 생산 환경을 원하는 기업은 클라우드 기반 NVIDIA AI Enterprise 소프트웨어 플랫폼을 통해 NeMo 및 TensorRT-LLM에 액세스할 수도 있습니다. 이 플랫폼은 생성적 AI 기본 모델을 위한 빠르고 효율적인 런타임 환경을 제공합니다. 그림 1은 선택된 임무에서 Nemotron-4 340B 모델 제품군의 정확성을 강조합니다. 구체적으로: Nemotron-4-340B-Base는 ARC-Challenge, MMLU 및 BigBench Hard와 같은 상식 추론 작업에서 Llama-3 70B, Mixtral 8x22B 및 Qwen-2 72B와 같은 개방형 액세스 기반 모델과 유사합니다. 벤치마크 비교 가능. 지시 따르기 및 채팅 기능 측면에서 Nemotron-4-340B-Instruct는 해당 지시 모델을 능가합니다. Nemotron-4-340B Reward는 GPT-4o-0513 및 Gemini 1.5 Pro-0514와 같은 독점 모델을 능가하는 RewardBench에서 가장 높은 정확도를 달성합니다. Nemotron-4-340B 출시 후 평가 플랫폼은 즉시 벤치마크 결과를 공개했습니다. Arena-Hard-Auto 등 하드 벤치마크 테스트에서 결과가 Llama-3-70b를 능가한 것을 확인할 수 있습니다. 이것은 업계에서 가장 강력한 새 모델이 등장했다는 의미인가요? https://blogs.nvidia.com/blog/nemotron-4-synthetic-data- Generation-llm-training/https: //x.com/lmsysorg/status/1801682893988892716위 내용은 NVIDIA의 가장 강력한 오픈소스 범용 모델 Nemotron-4 340B의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!