IT Home은 7월 11일 Wang Xiaochuan의 자회사인 Baichuan Intelligence가 오늘 "130억 매개변수 오픈 소스 및 상용화 가능"으로 알려진 Baichuan-13B 대형 모델을 출시했다고 보도했습니다.
▲ 사진 출처 Baichuang-13B GitHub 페이지
공식 소개에 따르면 Baichuan-13B는 Baichuan-7B 이후 Baichuan Intelligence가 개발한 130억 개의 매개변수를 포함하는 오픈소스 상용 대규모 언어 모델입니다. 중국어와 중국어 모두에서 동일한 크기의 모델 중에서 가장 좋은 결과를 얻었습니다. 영어 벤치마크. 이 릴리스에는 사전 훈련(Baichuan-13B-Base)과 정렬(Baichuan-13B-Chat)의 두 가지 버전이 포함되어 있습니다.
▲ 사진 출처 Baichuang-13B GitHub 페이지
바이촨-13B는 다음과 같은 특징을 가지고 있다고 공식적으로 주장했습니다:
- 더 큰 크기, 더 많은 데이터: Baichuan-13B는 Baichuan-7B를 기반으로 매개변수 수를 130억 개로 더욱 확장했으며 고품질 코퍼스에서 1.4조 개의 토큰을 훈련하여 LLaMA-13B를 40% 초과했습니다. 13B 크기에서 가장 많은 양의 학습 데이터를 보유한 모델입니다. 중국어 및 영어 이중 언어를 지원하고 ALiBi 위치 인코딩을 사용하며 컨텍스트 창 길이는 4096입니다.
- 오픈 소스 사전 훈련 및 정렬 모델 동시: 사전 훈련 모델은 개발자를 위한 "기반"인 반면, 일반 사용자의 대다수는 대화 기능이 있는 정렬 모델에 대한 더 강한 요구를 가지고 있습니다. 따라서 이 프로젝트에는 강력한 대화 기능을 갖춘 정렬 모델(Baichuan-13B-Chat)도 있으며, 즉시 사용할 수 있고 몇 줄의 코드로 쉽게 배포할 수 있습니다.
- 보다 효율적인 추론: 더 광범위한 사용자의 사용을 지원하기 위해 프로젝트는 int8 및 int4의 양자화된 버전도 오픈 소스로 제공했습니다. 효과 손실이 거의 없으며 NVIDIA RTX3090과 같은 소비자급 그래픽 카드에 배포할 수 있습니다.
- 오픈 소스, 상업용 무료: Baichuan-13B는 학술 연구에 완전히 개방되어 있을 뿐만 아니라 개발자도 이메일을 통해 신청하고 공식 상업용 라이선스를 취득한 후 무료로 사용할 수 있습니다.
현재 해당 모델은 HuggingFace, GitHub, Model Scope에 공개되어 있습니다. 관심 있는 IT Home 친구들은 가서 자세히 알아볼 수 있습니다.
위 내용은 Baichuan Intelligent는 Baichuan-13B AI 모델을 출시하며 '130억 개의 매개변수가 오픈 소스이며 상업적으로 사용될 수 있다'고 주장했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!