중국의 가장 강력한 AI 연구소의 대형 모델이 늦어지는 이유는 무엇입니까?

王林
풀어 주다: 2023-06-26 19:43:34
앞으로
1247명이 탐색했습니다.

중국의 가장 강력한 AI 연구소의 대형 모델이 늦어지는 이유는 무엇입니까?

후시우 테크놀로지 그룹 제작

저자|치젠

편집자|첸이판

헤더 이미지|FlagStudio

"OpenAI가 대형 모델을 다시 오픈소스로 만들까요?"

Zhiyuan Research Institute의 Zhang Hongjiang 회장이 2023 Zhiyuan 컨퍼런스에 온라인으로 참석한 OpenAI CEO Sam Altman에게 오픈 소스 문제에 대해 묻자 Sam Altman은 웃으며 말했습니다. OpenAI는 앞으로 더 많은 코드를 공개할 것이지만 아직은 구체적인 오픈소스 일정은 없습니다.

이러한 토론은 이번 지혜 회의의 주제 중 하나인 오픈 소스 대형 모델에서 나왔습니다.

6월 9일 베이징에서 2023년 Zhiyuan 회의가 열렸으며 모든 좌석이 꽉 찼습니다. 이번 컨퍼런스에서는 참가자는 물론 업계 체인의 다양한 기업들의 채팅에서도 '컴퓨팅 파워', '대형 모델', '생태' 등 AI 관련 단어가 수시로 등장했다.

중국의 가장 강력한 AI 연구소의 대형 모델이 늦어지는 이유는 무엇입니까?

이번 컨퍼런스에서 Zhiyuan 연구소는 종합 오픈 소스 Wu Dao 3.0을 출시했습니다. 비주얼 대형 모델 시리즈 'Vision', 언어 대형 모델 시리즈 'Sky Eagle', 오리지널 대형 모델 평가 시스템 'Libra'를 포함합니다.

대형 모델의 오픈 소스는 AI 개발자가 연구할 수 있도록 모델 코드를 공개한다는 의미입니다. Wu Dao 3.0의 "Sky Eagle" 기본 레이어 언어 모델은 여전히 ​​상업적으로 사용 가능한 모델이며 누구나 이 대형 모델을 무료로 사용할 수 있습니다.

현재 Microsoft의 심층 파트너인 OpenAI, Google 및 BAAI는 인공 지능 분야의 최전선에 있는 세 기관입니다. “최근 인터뷰에서 브래드 스미스 마이크로소프트 사장은 오픈AI(OpenAI), 구글과 맞먹는 중국 내 ‘최강’ AI 연구 기관인 BAAI를 언급했다. 이 기관이 베이징 지위안 인공지능연구소(Beijing Zhiyuan Artificial Intelligence Research Institute)다. , 이 연구소에서 주최하는 인공지능 컨퍼런스는 업계 동향

의 벤치마크입니다.

마이크로소프트 회장이 높이 평가하는 치위안 연구소는 이르면 2020년 10월 AI 대형 모델 'Enlightenment' 프로젝트를 시작했고, Enlightenment 모델 1.0과 2.0 두 가지 버전을 출시했다. 공식적으로 발표된 Enlightenment 2.0의 매개변수 규모는 1조 7천억에 이릅니다. 당시 OpenAI가 1750억 매개변수 GPT-3 모델을 출시한 지 불과 1년밖에 되지 않았습니다.

그러나 이러한 대형 AI 모델의 선구자는 지난 6개월간 AI 대형 모델 열풍 속에서도 극도로 절제된 모습을 보였습니다.

대형 제조업체와 스타트업 기업 사이에서 대형 모델이 속속 등장하는 가운데, Zhiyuan은 초기에 Meta의 컷아웃 AI 'SAM'과 충돌한 'SegGPT'를 제외하고는 3개월 넘게 외부 세계에 '침묵'을 유지했습니다. 4월에는 대형 AI 모델에 대한 정보가 거의 공개되지 않았다.

이와 관련하여 AI 업계 안팎에서 많은 분들이 의문을 제기하고 있습니다. AI 대형 모델 분야의 선두주자인 Zhiyuan 연구소가 대형 모델의 클라이막스에 뒤처지는 이유는 무엇일까요?

오픈소스 모델이 OpenAI의 해자를 무너뜨릴까요?

"현재 대형 모델 경쟁이 치열하지만 OpenAI나 Google 모두 해자가 없습니다. AI 대형 모델 분야에서 '오픈소스'가 떠오르고 있기 때문입니다." Google에서 유출한 문서에서 Google 내부 연구원들은 오픈 소스 모델이 대규모 모델 개발의 미래를 이끌 수 있다고 믿습니다. 이 문서에서는 “

오픈 소스 모델은 더 빠른 반복, 더 강력한 사용자 정의 기능 등을 제공합니다. 무료이고 제한되지 않은 대안의 품질이 동일할 때 제한된 모델에 비용을 지불하지 마십시오.

” 이는 Intelligent Source가 오픈 소스 대형 모델 개발을 선택한 이유 중 하나일 수 있습니다. 현재 오픈소스 상용 대형 모델은 많지 않습니다. Zhiyuan Research Institute는 해외에 출시된 39개 오픈소스 언어 대형 모델 중 일부에 대해 조사를 실시했습니다. . 중국에서 출시된 28개 주요 언어 모델 중 총 11개가 오픈소스 모델인데, 그 중 오픈소스이자 상용화 가능한 모델은 단 1개에 불과하다.

이번 Zhiyuan이 출시한 큰 언어 모델은 오픈 소스이며 상업적으로 사용 가능한 모델이기도 하며 현재 상업적으로 사용할 수 있는 몇 안 되는 오픈 소스 큰 언어 모델 중 하나이기도 합니다. 그것을 공개합니다.

“Zhiyuan에 관한 한 우리는 오픈 소스 모델이 너무 추악한 것을 원하지 않으므로 조심스럽게 출시할 것입니다.” Zhiyuan 컨퍼런스의 AI 연구원은 오픈 소스 모델이 필연적으로 그렇게 되어야 한다고 말했습니다. 반복적으로 검증되었으며 많은 개발자가 버그를 발견했습니다. 오픈 소스 모델의 품질을 보장하기 위해 Zhiyuan의 연구 개발 진행이 "오픈 소스"로 인해 느려졌을 수 있습니다.

Zhiyuan 연구소 소장 Huang Tiejun은 현재 우리나라 시장의 대형 모델의 오픈 소스와 개방성이 충분하지 않다고 생각합니다. “

오픈 소스를 더욱 강화해야 하며 오픈 소스도 경쟁입니다. . 정말 좋은 표준과 좋은 알고리즘이 있다면 평가를 위해 내놓아야 기술 수준을 입증할 수 있습니다

. 국내 제조사들이 대형 모델을 출시할 때 투명성이 부족하고, 과연 이들 제조사들이 독자적인 연구개발을 진행했는지 의구심이 드는 분들이 많습니다. 어떤 사람들은 API를 통해 ChatGPT를 호출한다고 하고, 다른 사람들은 Meta에서 유출된 LLaMA 모델과 ChatGPT의 답변 데이터를 사용하여 이를 훈련시킨다고 말합니다.

그러나 오픈소스 모델과 기술 투명성 향상은 자신의 무죄를 입증하기 위한 것이 아니라 실제로 "큰 일을 하기 위해 노력을 집중"하기 위한 것입니다. Zhiyuan 데이터에 따르면 천영 대언어 모델의 일일 학습 비용은 100,000위안 이상입니다. 국내 "수백 모델 전쟁" 또는 심지어 "수천 모델 전쟁"의 일반적인 추세에 따라 많은 업계에서 진행되고 있습니다. 불필요한 횟수가 많아 반복적인 훈련으로 인해 발생하는 비용은 천문학적일 수 있습니다.

오픈 소스 모델은 반복 학습을 줄일 수 있습니다. 오픈 소스 및 상용화된 대형 AI 모델을 직접 사용하고 이를 자체 데이터와 결합하여 학습하는 것이 AI 구현 및 산업 응용을 위한 최고의 솔루션일 수 있습니다.

오픈소스의 또 다른 고려사항은 좋은 생태계를 구축하고 향후 상용화를 이루기 위해 초기 단계에서 사용자와 개발자를 축적하는 것입니다. 국내 대형 모델 회사 창업자는 후슈에게 “OpenAI의 GPT-1과 GPT-2는 모두 오픈소스 대형 모델이다. 쇼, 상용화가 중점을 두고 이 모델은 점차 폐쇄될 예정이므로 일반적으로 오픈소스 모델의 상용화는 허용되지 않습니다.”

그러나 비영리 연구 기관인 Zhiyuan은 오픈 소스 문제와 관련하여 상업적인 고려 사항이 전혀 없습니다. Zhiyuan의 경우 모델 오픈 소스 측면에서 AI 대형 모델 산업의 과학 연구 및 혁신을 촉진하고 기본 모델과 같은 오픈 소스를 공개하여 산업 구현을 가속화하기를 희망합니다. 다른 한편으로는 오픈 소스 모델을 기반으로 더 많은 사용자 피드백을 축적하고 엔지니어링 분야에서 대규모 모델의 유용성을 향상시키고 싶을 수도 있습니다.

그러나 오픈 소스 모델은 "완벽"하지 않습니다.

한 대형 공장의 AI 기술 이사는 현재 대형 AI 모델의 상용화 시장이 1층은 자체 개발 모델을 완벽하게 갖춘 선두업체, 2층은 3단계로 나눌 수 있다고 후슈에게 말했다. 특정 요구 사항에 따라 모델을 개발해야 하는 고객 시나리오를 기반으로 독점 모델을 교육하는 기업의 경우 세 번째 계층은 일반 모델 기능만 필요하고 API 호출을 사용하여 요구 사항을 충족할 수 있는 중소 규모 고객을 위한 것입니다.

이러한 맥락에서 오픈 소스 모델은 자기 연구 능력을 갖춘 선두 기업이 모델 개발에 드는 시간과 비용을 많이 절약하는 데 도움이 될 수 있습니다. 그러나 2차 및 3차 기업의 경우 모델을 교육하고 조정하기 위해 자체 기술 팀을 구성해야 합니다. 기술 역량이 부족한 많은 기업의 경우 이로 인해 구현 프로세스가 더욱 복잡해지고 개방적이 됩니다. source는 "무료인 것이 가장 비싸다"는 느낌을 갖고 있는 것 같습니다.

이 "깨달음"은 더 이상 "깨달음"이 아닙니다

Zhiyuan의 Enlightenment 3.0은 완전히 재개발된 대형 모델 시리즈입니다.

이 역시 "늦은 출시" 이유 중 하나입니다. 우리는 이미 Enlightenment 2.0의 기반을 갖고 있는데 Zhiyuan이 새로운 모델 시스템을 개발해야 하는 이유는 무엇입니까?

한편으로는 모델의 기술적 방향을 조정하는 것이고, 다른 한편으로는 모델의 기본 학습 데이터를 "교체"하기 때문입니다.

"Wudao 2.0은 2021년에 개발될 예정이므로 언어 ​​모델(예: GLM)이든 Vincentian 그래프 모델(예: CogView)이든 기반으로 하는 알고리즘 아키텍처는 지금부터 비교적 초기 단계입니다. 과거에는 예를 들어, 언어 모델에 사용되는 디코더 전용 아키텍처는 더 높은 품질의 데이터를 사용하면 대규모 매개 변수를 사용하는 기본 모델에서 더 나은 결과를 얻을 수 있음이 입증되었습니다. . 생성 성능. 우리는 추가적인 혁신을 위해 확산으로 전환했습니다. 그래서 Wu Dao 3.0에서는 대규모 언어 모델과 대규모 텍스트 그래프 생성 모델에 대해 이러한 업데이트된 아키텍처를 채택했습니다.

" Lin Yonghua 차장. Zhiyuan 연구소 소장 겸 수석 엔지니어는 과거 모델 연구를 바탕으로 Wu Dao 3.0이 여러 방향으로 재구성되었다고 말했습니다.

또한 Wudao 3.0은 기본 모델의 훈련 데이터를 포괄적으로 최적화하고 업그레이드했습니다. 업데이트된 Wudao 중국어 데이터는 2021년부터 현재까지 훈련 데이터에 사용되었으며 더 엄격한 품질 정리를 거쳤습니다. 한편, 중국어 서적, 문학 등을 포함한 고품질 중국어가 다수 증가했습니다. 또한 고품질 코드 데이터 세트가 추가되어 기본 모델에도 큰 변화가 있었습니다.

기본 모델 훈련 데이터는 중국어가 아니기 때문에 많은 국내 모델이 중국어 이해 능력에 문제가 있습니다. 국내외의 많은 대규모 AI 모델은 훈련을 위해 해외의 대규모 오픈 소스 데이터를 사용합니다. 주요 소스에는 유명한 오픈 소스 데이터 세트인 Common Crawl이 포함됩니다.

Zhiyuan은 1백만 개의 Common Crawl 웹페이지 데이터를 분석하여

39,052개의 중국어 웹페이지를 추출할 수 있었습니다. 웹사이트 출처의 관점에서 볼 때, 중국어를 추출할 수 있는 웹사이트는 25,842개이며, 그 중 중국 본토에 IP가 있는 웹사이트는 4,522개로 17%에 불과합니다.

이로 인해 중국어 데이터의 정확성이 크게 저하될 뿐만 아니라 보안도 저하됩니다.

"기본 모델을 훈련하는 데 사용되는 코퍼스는 AIGC 애플리케이션, 미세 조정 모델 및 기타 콘텐츠에서 생성되는 규정 준수, 보안 및 가치에 큰 영향을 미칩니다." Lin Yonghua는 Tianying 기본 모델의 중국어 능력이 간단한 번역, 하지만 충분한 번역 중국 인터넷 데이터의 99%가 국내 웹사이트에서 나오는데, 이를 기반으로 기업이 안전하게 지속적인 교육을 실시할 수 있는 모델이다.

동시에 데이터와 숫자의 정제된 처리와 정리를 통해 적은 양의 데이터로도 동일하거나 더 나은 성능을 가진 모델을 훈련할 수 있습니다. 데이터 양의 40%는 기존 오픈 소스 모델을 능가합니다.

이제 Zhiyuan에게는 이 길이 더 나은 솔루션일 수 있는 것 같습니다. 훈련 데이터 측면에서 Zhiyuan은 인터넷 제조업체에 비해 단점이 있기 때문입니다. 대형 인터넷 기업은 풍부한 사용자 상호 작용 데이터와 교육용 저작권 데이터를 대량으로 보유하고 있습니다. 얼마 전 Alibaba DAMO Academy는 Alibaba의 비디오 플랫폼 Youku에서 가져온 모든 콘텐츠인 Youku-mPLUG 비디오 언어 데이터 세트를 출시했습니다.

Zhiyuan은 사용자 기반이 깊지 않기 때문에 훈련 데이터 측면에서 저작권 소유자와의 협상을 통해서만 승인을 얻을 수 있으며 일부 공공 복지 데이터 프로젝트를 통해 조금씩 수집하고 축적할 수 있습니다.

그러나 현재 Zhiyuan의 중국 데이터 세트는 부분적으로만 오픈 소스일 수 있습니다. 주된 이유는 중국 데이터의 저작권이 여러 기관의 손에 분산되어 있기 때문입니다. 현재 Zhiyuan의 훈련 데이터는 여러 당사자의 조정을 통해 획득됩니다. 오픈 소스 모델을 위해 오픈 액세스를 연구합니다. 대부분의 데이터는 Zhiyuan 모델에만 적용할 수 있으며 2차 용도로 사용할 권리가 없습니다.

"

중국에서는 데이터 세트에 대한 산업 동맹을 구축하고, 저작권 보유자를 통합하고, 인공 지능 훈련 데이터에 대한 통일된 계획을 수행하는 것이 매우 필요하지만, 이를 위해서는 최상위 설계의 지혜가 필요합니다. " Lin Yonghua는 Huxiu에게 말했습니다. .

국내 대형 모형업계의 왐포 육군사관학교

Enlightenment 3.0은 Enlightenment 2.0과 다른 이야기를 하고 있는데, R&D팀의 변화도 그중 하나입니다. AI 대형 모형 산업의 선구자로서 Zhiyuan 연구소는 국내 AI 대형 모형의 황포군관학교와 같습니다.

Zhiyuan 학자부터 풀뿌리 엔지니어까지, 그들은 모두 오늘날의 대형 모델 열풍 속에서 업계에서 인기를 얻었습니다. Zhiyuan의 원래 팀은 또한 여러 대형 모델 기업 팀을 육성했습니다.

Wudao 3.0 이전에는 대형 모델 시리즈가 여러 외부 연구소에서 공동으로 발표한 연구 결과를 조합한 것이었지만, 이번에 Wudao 3.0은 Zhiyuan 팀이 완전히 자체 개발한 모델 시리즈입니다.

Wudao 2.0 모델은 Wenyuan, Wenlan, Wenhui 및 Wensu를 포함하여 2021년에 출시되었습니다. 그 중 2개의 핵심 모델은 칭화대학교의 2개 연구실에서 완성되었습니다. 현재 두 팀은 CPM과 GLM의 연구 개발 방향에 따라 자체 회사를 설립하고 자체 제품을 개발했습니다.

그 중 GLM의 주요 R&D 팀인 Tsinghua University의 KEG(지식 공학 연구소)는 CPM의 주요 R&D 팀인 Zhipu AI와 함께 오픈 소스 모델 ChatGLM-6B를 출시했습니다. THUNLP(자연어 처리 및 사회 인문 컴퓨팅 연구실)의 일부 회원으로 구성된 칭화대학교 컴퓨터 공학부 Shenyan Technology는 올해 두 차례에 걸쳐 설립된 이후 다양한 자본의 호응을 받아왔습니다. , Tencent Investment, Sequoia China, Qiji Chuangtan 및 기타 펀드.

Zhiyuan 연구소의 한 관계자는 Huxiu에게

국내 대규모 AI 모델이 등장한 이후 Zhiyuan 팀은 인재 전쟁의 '사냥 대상'이 되었습니다. 헤드헌터."

현재 국내 AI 대형모델 산업에서 가장 부족한 것은 돈이고, 가장 부족한 것은 사람입니다. Liepin, Maimai, BOSS Zhipin의 세 가지 플랫폼에서 ChatGPT를 검색하세요. 석사 및 박사 학위를 보유한 직위의 월급은 일반적으로 30,000보다 높으며 최고는 90,000입니다. "급여 측면에서 대형 IT 기업은 그다지 이점을 누리지 못합니다. 대형 AI 모델의 연구 및 개발은 모두 높은 수준에서 이루어집니다. Xihu Xinchen의 COO Yu Jia는 스타트업이 제공하는 급여가 더 경쟁력이 있을 수 있습니다." , Huxiu에게 AI 산업에서 인재 전쟁이 점점 더 치열해질 것이라고 말했습니다.

“Zhiyuan의 많은 직원들은 두 배의 급여가 전혀 경쟁력이 없다고 생각합니다. 왜냐하면 지금 그들은 급여의 5배, 심지어 10배로 사람들을 밀렵하고 있기 때문입니다. 당신이 아무리 이상적이고 미래를 어떻게 계획하든 상관 없습니다. 100만 달러가 넘는 연봉의 유혹을 뿌리쳐라”고 후시우에게 말했다.

즈위안은 비영리 연구 기관이다 보니 연봉 수준이 주요 인터넷 기업이나 스타트업과 맞먹기 어렵다. 그들 뒤에는 많은 양의 자본이 있습니다.

후슈는 헤드헌팅을 통해 현재 자연어 처리 전문가의 초봉이 100만 달러가 넘는다는 사실을 알게 되었습니다. 근무 기간이 길고 임금이 낮은 일부 직원의 경우 몇 배의 급여에 직면하면 흔들리지 않기가 어렵습니다.

그러나 현재 Zhiyuan 연구소의 공개 데이터에 따르면 Zhiyuan 연구소의 핵심 프로젝트 팀 리더 대부분은 여전히 ​​Zhiyuan 연구소의 연구 개발 프로젝트를 전임으로 담당하고 있습니다.

Wu Dao 3.0의 모델은 모두 Tianying, Libra 및 Vision을 포함하여 Zhiyuan의 자체 연구원이 개발했습니다.” Lin Yonghua는 현재 Zhiyuan 연구소의 R&D 역량이 항상 업계 최고라고 말했습니다.

변화하고 있고 세상을 바꾸고 싶은 사람들은 Huxiu APP에 있습니다

위 내용은 중국의 가장 강력한 AI 연구소의 대형 모델이 늦어지는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:sohu.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿