공개: Step Star 1조 MoE+ 다중 모드 대형 모델 매트릭스 공개-일체 포함-php.cn

2024년 세계 인공지능 컨퍼런스에서는 대형 AI 모델이 천국에서 심부름을 '주선'하기 위해 많은 사람들이 부스 앞에 줄을 섰습니다.

공개: Step Star 1조 MoE+ 다중 모드 대형 모델 매트릭스 공개

프로세스:

개인 사진 제공
선국 이미지 사진 생성("Havoc in Heaven" 스타일 참조)
대화형 플롯 선택 및 대화 세션
선택과 답변을 기반으로 MBTI 성격 유형 평가
성격 유형에 따라 천상 심부름을 "정리"

체험 방법 :

현장 대기열
온라인 체험 (아래 QR 코드 스캔)
대형 모델 스타트업 스테핑스타즈의 대대적인 행보를 예고합니다

Shanghai Film Group과 협력한 AI 인터랙티브 체험 "AI + Havoc in Heaven"은 스테핑 스타즈가 대형 모델의 매력을 선보이기 위한 전채 요리일 뿐입니다. WAIC 기간 동안 그들은 다음과 같은 큰 움직임을 대대적으로 시작했습니다.

수조 개의 매개변수가 있는 MoE 대형 모델: Step-2 공식 버전
수천억 개의 매개변수가 있는 다중 모드 대형 모델: Step- 1.5V
이미지 생성 대형 모델: Step-1X

Step-2조 매개변수 대형 모델

3월 Step Stars로 데뷔한 Step-2는 완전히 GPT에 가깝게 진화했습니다. -4급, 수학 논리, 프로그래밍, 중국어 지식, 영어 지식 및 수업 따르기 분야에서 탁월한 성적을 거두었습니다.

Step-1.5V 멀티모달 대형 모델

스텝스타는 Step-2 모델을 기반으로 강력한 인지력과 영상 이해력을 갖춘 멀티모달 대형 모델인 Step-1.5V를 개발했습니다. 고급 추론(수학 문제 해결, 코드 작성, 시 작성 등)을 위한 이미지 콘텐츠를 사용할 수 있습니다.

Step-1X 대형 이미지 생성 모델

"AI + Upheaval in Heaven"의 이미지 생성은 중국 요소에 심층적으로 최적화되었으며 뛰어난 의미 정렬 및 명령 추종 능력을 갖춘 Step-1X 모델로 완성됩니다.

Step Star는 1조 매개변수 MoE 대형 모델과 다중 모드 대형 모델을 포괄하는 완전한 대형 모델 매트릭스를 구축하여 대형 모델 스타트업의 첫 번째 계층이 되었습니다. 이는 스케일링 법칙에 대한 끈기와 매칭 기술 및 자원 강도 때문입니다.

처음부터 훈련된

2조 단계 매개변수 대형 모델

은 수학과 프로그래밍과 같은 분야에서 모델의 추론 능력을 크게 향상시킵니다. Step-2는 1000억 수준 모델보다 더 복잡한 수학적 논리 및 프로그래밍 문제를 해결할 수 있으며, 벤치마크 평가를 통해 정량적으로 확인되었습니다.

공개: Step Star 1조 MoE+ 다중 모드 대형 모델 매트릭스 공개 또한 중국어, 영어 능력과 명령추종능력도 대폭 향상됐다.
Step-2가 그렇게 잘 수행되는 이유는 한편으로는 엄청난 수의 매개변수와 다른 한편으로는 훈련 방법 때문입니다.
우리는 MoE 모델을 훈련시키는 두 가지 주요 방법이 있다는 것을 알고 있습니다. 하나는 업사이클(upcycle)입니다. 이는 훈련 과정의 중간 결과나 이미 훈련된 모델을 재사용하여 보다 효율적이고 경제적인 방법으로 모델 성능을 더욱 향상시키는 것입니다. 이 학습 방법은 컴퓨팅 성능이 낮고 학습 효율성이 높지만 학습된 모델의 상한이 하한인 경우가 많습니다. 예를 들어, MoE 모델을 훈련할 때 동일한 기본 모델을 복사하고 미세 조정하여 여러 전문가 모델을 얻은 경우 이러한 전문가 모델 간에 높은 수준의 유사성이 있을 수 있으며 이러한 동질성은 MoE 모델의 성능 향상을 제한합니다. . 공간.
이러한 한계를 고려하여 Step Stars는 완전히 독립적인 연구 개발과 처음부터 교육이라는 또 다른 접근 방식을 선택했습니다. 이 방법은 학습이 어렵고 컴퓨팅 파워를 많이 소모하지만 더 높은 모델 상한을 달성할 수 있습니다.
구체적으로, 그들은 먼저 일부 전문가의 매개변수 공유, 이질적인 전문가 설계 등을 포함하여 MoE 아키텍처 설계에서 몇 가지 혁신을 이루었습니다. 전자는 특정 공통 기능이 여러 전문가 간에 공유되도록 보장하면서도 동시에 각 전문가는 여전히 고유성을 유지합니다. 후자는 각 전문가가 특정 작업에 대해 고유한 이점을 갖도록 다양한 유형의 전문가 모델을 설계하여 모델의 다양성과 전반적인 성능을 높입니다.
이러한 혁신을 기반으로 Step-2는 총 매개변수 수가 1조 수준에 도달할 뿐만 아니라 각 훈련 또는 추론에 대해 활성화된 매개변수의 수도 시장에서 가장 밀도가 높은 모델을 초과합니다.
게다가 이러한 1000조 매개변수 모델을 처음부터 훈련시키는 것도 시스템 팀에게는 큰 테스트입니다. 다행스럽게도 Step Star System 팀은 시스템 구축 및 관리 분야에서 풍부한 실무 경험을 보유하고 있어 교육 과정에서 6D 병렬성, 극한의 비디오 메모리 관리, 완전 자동화된 운영 및 유지 관리 등 핵심 기술을 성공적으로 돌파하고 성공적으로 완료할 수 있었습니다. 2단계. Step-2의 어깨 위에 선 Step-1.5V 멀티모달 대형 모델
3개월 전, Step Star는 Step-1V 멀티모달 대형 모델을 출시했습니다. 최근에는 Step-2 정식 버전이 출시되면서 이 대형 멀티모달 모델도 1.5 버전으로 업그레이드 되었습니다.
Step-1.5V는 주로 다중 모드 이해 기능에 중점을 둡니다. 이전 버전에 비해 지각 능력이 크게 향상되어 복잡한 차트와 흐름도를 이해하고 물리적 공간에서 복잡한 기하학적 위치를 정확하게 인식하며 고해상도 및 극단적인 종횡비 이미지도 처리할 수 있습니다.

공개: Step Star 1조 MoE+ 다중 모드 대형 모델 매트릭스 공개

또한 사물, 캐릭터, 환경을 포함한 영상과 영상 속 전체적인 분위기와 캐릭터의 감정을 이해할 수도 있습니다.

앞서 언급했듯이 Step-2는 Step-1.5V 탄생에 없어서는 안 될 역할을 했습니다. 이는 Step-1.5V의 RLHF(인간 피드백 기반 강화 학습) 훈련 과정에서 Step-2가 지도 모델로 사용된다는 것을 의미하며, 이는 모델이 1조 개의 매개변수를 갖는 Step-1.5V와 동일합니다. 이 교사의 지도 아래 Step-1.5V의 추론 능력이 크게 향상되었으며 수학 문제 해결, 코드 작성, 시 작성 등 이미지 콘텐츠를 기반으로 다양한 고급 추론 작업을 수행할 수 있습니다. 이는 OpenAI GPT-4o가 최근 선보인 기능 중 하나이기도 합니다. 이 기능은 외부 세계를 그 응용 가능성에 대한 기대로 가득 채웠습니다.

다중 모드 생성 기능은 주로 새 모델인 Step-1X에 반영됩니다. 일부 유사한 모델과 비교하면 더 나은 의미 정렬과 명령 따르기 기능이 있으며 동시에 중국 요소에 깊이 최적화되어 중국인의 미적 스타일에 더 적합합니다.

이 모델을 기반으로 제작된 "Havoc in Heaven"의 AI 인터랙티브 경험은 이미지 이해, 스타일 전송, 이미지 생성, 플롯 생성 및 기타 기능을 통합하여 업계 최고의 다중 모드를 풍부하고 3차원적으로 보여줍니다. 단계 별 수준. 예를 들어, 초기 캐릭터를 생성할 때 시스템은 먼저 사용자가 업로드한 사진이 "얼굴 꼬집기" 요구 사항을 충족하는지 여부를 확인한 다음 매우 "천국의 파괴" 언어 스타일로 유연하게 피드백을 제공합니다. 이는 모델의 그림 이해 능력과 대규모 언어 모델 능력을 반영합니다. 대형 모델 기술의 지원으로 이 게임을 통해 플레이어는 기존 온라인 H5 게임과는 완전히 다른 상호 작용 경험을 얻을 수 있습니다. 모든 대화형 질문, 사용자 이미지, 분석 결과는 모델이 실시간으로 특징을 학습한 후 생성되므로 수천 명의 사람과 얼굴, 무제한 플롯의 가능성이 진정으로 실현됩니다.

공개: Step Star 1조 MoE+ 다중 모드 대형 모델 매트릭스 공개 이러한 뛰어난 성능은 Step Star Full Link에서 개발한 DiT 모델 아키텍처(OpenAI의 Sora도 DiT 아키텍처임)와 불가분의 관계입니다. 더 많은 사람들이 이 모델을 사용할 수 있도록 Step Star는 다양한 컴퓨팅 성능 시나리오의 요구 사항을 충족하기 위해 Step-1X에 대해 600M, 2B 및 8B의 세 가지 매개 변수 수량을 설계했습니다.

3월 데뷔 행사에서 Step Star의 창업자인 Jiang Daxin은 대형 모델의 진화가 세 단계를 거칠 것이라고 분명히 밝혔습니다.

첫 번째 단계에서는 언어, 시각, 소리 등 각 양식이 독립적으로 발달하며, 각 양식의 모델은 특정 양식의 특성을 학습하고 특성화하는 데 중점을 둡니다.
두 번째 단계에서는 다양한 모드가 병합되기 시작합니다. 그러나 이러한 통합은 완전하지 않으며 이해와 생성 작업이 여전히 분리되어 있어 모델의 이해 능력은 강하지만 생성 능력이 약하거나 그 반대의 결과가 발생합니다.
세 번째 단계에서는 생성과 이해가 하나의 모델로 통합된 다음 로봇과 완전히 통합되어 구체화된 지능을 형성합니다. 다음으로 체화된 지능은 물리적 세계를 적극적으로 탐색한 후 점차 세계 모델로 진화하여 AGI를 구현합니다.

이것은 장다신 등이 사업 초기부터 고수해온 노선이기도 합니다. 이 길에서는 "수조 개의 매개변수"와 "다중 모드 융합"이 필수적입니다. Step-2, Step-1.5V 및 Step-1X는 모두 이 길에서 도달한 노드입니다.

게다가 이 노드들은 서로 연결되어 있습니다. OpenAI를 예로 들어보겠습니다. 연초에 출시한 비디오 생성 모델 Sora는 주석을 위해 OpenAI의 내부 도구(대부분 GPT-4V)를 사용했으며 GPT-4V는 GPT-4 관련 기술을 기반으로 교육되었습니다. 현재의 관점에서 볼 때 단일 모드 모델의 강력한 기능은 다중 모드의 기반을 마련할 것이며 다중 모드에 대한 이해는 생성의 기반을 마련할 것입니다. 이러한 모델 매트릭스를 기반으로 OpenAI는 왼발이 오른발을 밟는 것을 실현합니다. 그리고 Step Star는 중국에서 이 경로를 확인하고 있습니다.

이 회사가 국내 대형 모델 분야에 더 많은 놀라움을 가져다 줄 것으로 기대합니다.

위 내용은 공개: Step Star 1조 MoE+ 다중 모드 대형 모델 매트릭스 공개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!