칭화대학교와 Zhipu AI 오픈 소스 GLM-4: 자연어 처리의 새로운 혁명 시작-일체 포함-php.cn

칭화대학교와 Zhipu AI 오픈 소스 GLM-4: 자연어 처리의 새로운 혁명 시작

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

풀어 주다： 2024-06-12 20:38:02

원래의

1039명이 탐색했습니다.

2023년 3월 14일 ChatGLM-6B 출시 이후 GLM 시리즈 모델은 폭넓은 관심과 인정을 받았습니다. 특히 ChatGLM3-6B가 오픈소스로 공개된 이후 개발자들은 Zhipu AI가 출시하는 4세대 모델에 대한 기대감이 가득합니다. 이러한 기대는 마침내 GLM-4-9B의 출시로 완전히 충족되었습니다.

GLM-4-9B의 탄생

소형 모델(10B 이하)에 더욱 강력한 기능을 제공하기 위해 GLM 기술팀은 약 반년 만에 새로운 4세대 GLM 시리즈 오픈소스 모델을 출시했습니다. 탐사 :GLM-4-9B. 이 모델은 정확성을 보장하면서 모델 크기를 크게 압축하고 추론 속도가 더 빠르고 효율성이 높습니다. GLM 기술팀의 탐구는 끝이 없으며 더욱 경쟁력 있는 오픈소스 출시를 위해 계속해서 노력할 것입니다.

혁신적인 사전 학습 기술

사전 학습 과정에서 대규모 언어 모델을 도입했습니다. 데이터 스크리닝을 거쳐 최종적으로 10T 고품질 다국어 데이터를 획득했습니다. 이 데이터 양은 ChatGLM3-6B 모델의 3배 이상입니다. 또한, 효율적인 사전 훈련을 위해 FP8 기술을 사용하여 3세대 모델 대비 훈련 효율이 3.5배 향상되었습니다. 사용자의 저장 요구 사항을 고려하여 GLM-4-9B의 매개변수 크기가 6B에서 9B로 증가되었습니다. 궁극적으로 제한된 저장 조건에서 성능 역량을 극대화하기 위해 사전 훈련 계산을 5배 늘렸습니다.

뛰어난 성능 시연

GLM-4-9B는 더욱 강력한 추론 성능, 향상된 컨텍스트 처리 기능, 다중 언어 지원, 다중 모달 처리 및 전체 도구 세트를 갖춘 포괄적이고 포괄적인 기술 업그레이드 도구입니다. 모든 도구 호출 그리고 다른 이점. 이러한 업그레이드는 사용자에게 더욱 안정적이고 신뢰할 수 있으며 정확한 기술 지원을 제공하고 사용자의 작업 효율성과 품질을 향상시킵니다.

GLM-4-9B 시리즈에는 여러 버전이 포함되어 있습니다.

기본 버전: GLM-4-9B(8K)
대화 버전: GLM-4-9B-Chat(128K)
추가 긴 컨텍스트 버전: GLM-4-9B-Chat-1M (1M)
다중 모드 버전: GLM-4V-9B-Chat (8K)

GLM-4-9B의 강력한 기능

기본 기능

강력한 사전 교육을 바탕으로 GLM-4-9B의 포괄적인 중국어 및 영어 능력은 ChatGLM3-6B에 비해 40% 향상되었습니다. 특히, 중국 정렬 기능 AlignBench, 명령 준수 기능 IFeval, 엔지니어링 코드 처리 기능 Natural Code Bench에서 상당한 개선이 이루어졌습니다. 학습량이 많은 Llama 3 8B 모델과 비교해도 GLM-4-9B가 전혀 뒤지지 않고 영어 성적에서는 GLM-4-9B가 최대 50% 향상되었습니다. 평가표].

긴 텍스트 처리 기능

清华大学与智谱AI重磅开源 GLM-4：掀起自然语言处理新革命 Pictures

GLM-4-9B+ 모델의 컨텍스트 길이가 128K에서 1M 토큰으로 확장되었습니다. 즉, 최대 200만 단어의 입력을 처리할 수 있습니다. 이는 『붉은 저택의 꿈』 2권, 즉 학술 논문 125편 분량에 해당한다. GLM-4-9B-Chat-1M 모델은 "건초 더미 속의 바늘" 실험[긴 텍스트 실험 그림]에서 긴 텍스트 입력을 비파괴적으로 처리하는 탁월한 능력을 성공적으로 입증했습니다.

다음은 긴 텍스트 처리 기능을 보여주는 두 가지 데모 비디오 사례입니다.

GLM-4-9B-Chat 모델: 총 길이가 약 128K인 PDF 파일 5개를 입력하고 Prompt for에 대한 기사를 작성합니다. 중국의 대형 모델 개발에 관한 자세한 연구 보고서. 이 모델은 고품질 연구 보고서를 빠르게 생성할 수 있습니다(비디오는 가속화되지 않음).
GLM-4-9B-Chat-1M 모델: "삼체 문제" 전집에 약 900,000 단어를 입력하고 모델에게 소설의 속편 개요를 작성하도록 요청하세요. 모델이 합리적으로 계획되고 연속 프레임워크가 제공됩니다(동영상이 10배속됩니다).

다국어 지원

GLM-4-9B+는 중국어, 영어, 러시아어 등 최대 26개 언어를 지원합니다. 토크나이저 어휘 크기를 65K에서 150K로 확장했으며 코딩 효율성이 30% 향상되었습니다. 다국어 이해 및 생성 작업에서 GLM-4-9B-Chat은 Llama-3-8B-Instruct [다국어 성능 비교 차트]보다 성능이 뛰어납니다.

함수 호출 성능

GLM-4-9B의 함수 호출 성능은 이전 세대에 비해 40% 증가했습니다. Berkeley 함수 호출 순위표에서는 함수 호출 성능이 GPT-4와 비슷합니다. 비교표].

모든 도구 전체 도구 호출

"모든 도구" 기능은 모델이 다양한 외부 도구(예: 코드 실행, 네트워크 탐색, 그리기 등)를 이해하고 사용하여 작업 완료를 지원할 수 있음을 의미합니다. 1월 16일 Zhipu DevDay에서 GLM-4 모델은 웹 브라우저, 코드 해석기, CogView 및 기타 도구를 지능적으로 호출하여 복잡한 요청을 완료할 수 있는 모든 도구 기능으로 완전히 업그레이드되었습니다[모든 도구 작업 아이콘].

멀티 모달 처리

GLM-4를 기반으로 한 오픈 소스 멀티 모달 모델인 GLM-4V-9B는 고해상도 입력을 처리하고 교육용 시각적 데이터와 텍스트 데이터를 직접 혼합하여 시연할 수 있습니다. 놀라운 다중 모드 처리 효과는 GPT-4V의 성능과 동일합니다. 복잡한 다중 모드 작업을 식별하고 처리할 때 매우 잘 수행됩니다 [다중 모드 응용 프로그램 예제 다이어그램].

清华大学与智谱AI重磅开源 GLM-4：掀起自然语言处理新革命 Pictures