국내 자체 개발 대형 모델들이 새로운 얼굴을 맞이하며, 출시되자마자 오픈소스로 공개됩니다!
최신 소식은 70억 매개변수와 1,800억 매개변수의 두 가지 버전을 포함한 멀티모달 대형 언어 모델 TigerBot이 공식적으로 공개되었다는 것입니다. 두 버전 모두 오픈 소스입니다.
본 모델이 지원하는 대화형 AI도 동시에 출시됩니다. 슬로건 작성, 양식 작성, 문법 오류 수정은 모두 매우 효과적입니다. 또한 다중 양식을 지원하고 그림을 생성할 수도 있습니다. 평가 결과TigerBot-7B는 동일한 크기의 OpenAI 모델 종합 성능의 96%에 도달한 것으로 나타났습니다.
△OpenAI-instruct GPT-6B-SFT를 벤치마크로 사용하여 각 모델의 점수를 정규화 및 평균화하는 공개 NLP 데이터 세트에 대한 자동 평가그리고 더 큰 TigerBot-180B 또는 현재는 업계 최대 규모의 오픈 소스 대규모 언어 모델입니다.또한 팀은 100G 사전 학습 데이터를 오픈 소스로 공개하고 1G 또는 1백만 개의 데이터
에 대한 미세 조정을 감독했습니다.TigerBot을 기반으로 개발자는 반나절
만에 자신만의 대형 모델을 만들 수 있습니다.현재 TigerBot Dialogue AI는 내부 테스트에 초청되었으며 오픈 소스 코드 데이터는 GitHub에 업로드되었습니다(자세한 링크는 기사 끝 부분 참조)
.
이러한 중요한 작업은 처음에는 5명으로 구성된 소규모 팀에서 이루어집니다.
최고 프로그래머이자 과학자는 바로 CEO입니다.하지만 이 팀은 결코 무명팀이 아닙니다.
2017년부터 NLP 분야에서 수직 필드 검색을 전문으로 하는 사업을 시작했습니다.데이터 중심 금융 분야의 최고 전문가이며 Founder Securities, Guosen Securities 등과 긴밀한 협력 관계를 유지해 왔습니다.
설립자 겸 CEO는 업계에서 20년 이상의 경력을 갖고 있으며 UC Berkeley의 객원 교수였으며 3개의 최고의 컨퍼런스 논문과 10개의 기술 특허를 보유하고 있습니다.
이제 전문 분야에서 벗어나 일반 대형 모델로 나아가기로 결심했습니다. 그리고 우리는 처음부터 가장 낮은 기본 모델로 시작하여3개월 이내에 3,000번의 실험 반복을 완료했습니다
. 그리고 우리는 여전히 단계별 결과를 외부 세계에 공개할 수 있다는 자신감을 가지고 있습니다.사람들이 궁금해하지 않을 수 없는데요, 그들은 누구일까요? 뭐하고 싶어? 지금까지 어떤 단계적 성과가 달성되었나요?
TigerBot이 무엇인가요? 구체적으로 TigerBot은 국내에서 자체 개발한 대형 다국어 작업 모델입니다. 생성, 공개질의응답, 프로그래밍, 그리기, 번역, 브레인스토밍 등 15가지 주요 기능 카테고리를 다루며, 60개 이상의 하위 작업을 지원합니다. 모델을 인터넷에 연결하여 최신 데이터와 정보를 얻을 수 있는플러그인 기능
도 지원합니다.
사무실 현장에 더 가깝게 위치하며 사람들의 작업 흐름과 효율성을 향상시키는 목표를 제안합니다.
예를 들어 Apple Vision Pro에 대한 뉴스 속보를 작성하는 데 도움이 됩니다. 효과는 인상적입니다.또는 명확하고 잘 구성된 종이 개요 작성:
프로그래밍 기술 없음 질문하고, 영어 대화를 지원합니다.
그림을 그리도록 두면 매번 3개의 다른 그림이 생성되므로 직접 선택할 수 있습니다.
이번 릴리스에서 TigerBot은 70억 개의 매개변수(TigerBot-7B)와 1,800억 개의 매개변수(TigerBot-180B)라는 두 가지 크기를 출시했습니다.
팀은 모델, 코드, 데이터 등 지금까지 달성한 모든 단계적 결과를 오픈 소스로 제공합니다.
오픈 소스 모델에는 다음 세 가지 버전이 포함됩니다.
그 중에서 TigerBot-7B-base는 OpenAI와 동등한 동급 모델보다 더 나은 성능을 발휘합니다. , 꽃 . TigerBot-180B-연구는 현재 업계에서 가장 큰 오픈 소스 모델일 수 있습니다(Meta 오픈 소스 OPT의 매개변수 크기는 1,750억이고 BLOOM의 규모는 1,760억입니다).
오픈 소스 코드에는 듀얼 카드 추론 180B 모델을 위한 기본 훈련 및 추론 코드, 양자화 및 추론 코드가 포함되어 있습니다.
데이터에는 100G 사전 훈련 데이터와 1G 또는 1백만 개의 데이터에 대한 감독된 미세 조정이 포함됩니다.
공개 NLP 데이터 세트에 대한 OpenAI InstructGPT 논문의 자동 평가에 따르면 TigerBot-7B는 동일한 크기의 OpenAI 모델 종합 성능의 96%에 도달했습니다.
그리고 이 버전은 단지 MVP(최소 실행 가능 모델)일 뿐입니다.
이러한 결과는 주로 팀이 GPT 및 BLOOM을 기반으로 한 모델 아키텍처 및 알고리즘을 추가로 최적화한 덕분입니다. 이는 또한 지난 몇 달 동안 TigerBot 팀이 수행한 주요 혁신 작업으로 모델의 학습 능력과 생성이 가능해졌습니다. 그리고 세대 제어 가능성이 크게 향상되었습니다.
구체적으로 어떻게 구현하나요? 아래를보세요.
TigerBot이 가져온 혁신에는 주로 다음과 같은 측면이 포함됩니다.
를 위해 먼저 명령완성 감독 미세조정 방법을 살펴보겠습니다.
모델은 인간이 어떤 유형의 질문을 했는지 빠르게 이해하고, 적은 수의 매개변수만 사용하여 답변의 정확성을 높일 수 있습니다.
원칙적으로 제어에는 더 강력한 지도 학습이 사용됩니다.
마크업 언어(마크업 언어)와 확률적 방법을 사용하여 대형 모델이 지시 범주를 보다 정확하게 구분할 수 있도록 합니다. 예를 들어, 지시 질문이 더 사실적인가, 아니면 다른가? 코드인가요? 양식인가요?
그래서 TigerBot은 10개의 주요 카테고리와 120개의 작은 작업 카테고리를 다루고 있습니다. 그런 다음 판단에 따라 해당 방향으로 모델을 최적화하도록 합니다.
이 가져오는 직접적인 이점은 호출할 매개변수의 수가 더 적고 모델이 새로운 데이터나 작업에 더 잘 적응할 수 있다는 것, 즉 학습성이 향상된다는 것입니다.
50만 데이터의 동일한 훈련 조건에서 TigerBot의 수렴 속도는 스탠포드가 출시한 Alpaca보다 5배 빠르며, 공개 데이터 세트에 대한 평가에서는 성능이 17% 향상된 것으로 나타났습니다.
두 번째로, 모델이 생성된 콘텐츠의 창의성과 사실적 제어 가능성의 균형을 어떻게 더 잘 맞출 수 있는지도 매우 중요합니다.
TigerBot은 한편으로는 ensemble 방법을 채택하여 여러 모델을 결합하여 창의성과 사실적 제어 가능성을 고려합니다.
사용자 요구에 따라 둘 사이의 모델 균형을 조정할 수도 있습니다.
한편, AI 분야의 고전적인 Probabilistic Modeling(Probabilistic Modeling) 방식도 채택하고 있습니다.
모델이 콘텐츠 생성 과정에서 가장 최근에 생성된 토큰을 기반으로 두 가지 확률을 부여할 수 있도록 해줍니다. 확률은 내용이 계속해서 분기되어야 하는지를 결정하고, 확률은 생성된 내용이 사실 내용에서 벗어나는 정도를 나타냅니다.
두 확률의 값을 결합하면 모델은 창의성과 제어 가능성 사이에서 균형을 이룰 것입니다. TigerBot의 두 가지 확률은 특수 데이터로 훈련됩니다.
모델이 다음 토큰을 생성할 때 전체 텍스트를 볼 수 없는 경우가 많다는 점을 고려하면 TigerBot은 답변이 작성된 후에 또 다른 판단을 내릴 것입니다. 답변이 최종적으로 부정확한 것으로 확인되면 모델이 다음을 수행해야 합니다. 고쳐 쓰기.
저희도 경험을 통해 TigerBot이 생성한 답변이 ChatGPT와 같은 축어적 출력 모드가 아니라 '생각'한 후에 완전한 답변을 제공한다는 사실을 발견했습니다.
ΔChatGPT와 TigerBot 응답 방법 비교
그리고 TigerBot의 추론 속도가 매우 빠르기 때문에 모델의 신속한 재작성을 지원할 수 있습니다.
여기서 TigerBot의 훈련 및 추론 혁신에 대해 이야기합니다.
모델의 기본 아키텍처 최적화를 고려하는 것 외에도 TigerBot 팀은 현재 대형 모델 시대에 엔지니어링 수준도 매우 중요하다고 믿습니다.
한편으로는 운영 효율성을 고려해야 하기 때문입니다. 대형 모델의 추세가 계속됨에 따라 누가 모델을 더 빠르게 반복할 수 있는지가 매우 중요한 반면, 컴퓨팅 성능의 경제성도 중요합니다. 또한 고려됩니다.
따라서 병렬 훈련 측면에서 그들은 deep-speed와 같은 주류 프레임워크에서 여러 가지 기억 및 의사소통 문제를 돌파하고 킬로칼로리 환경에서 수개월 동안 중단 없는 훈련을 달성했습니다.
이를 통해 월간 교육 비용에서 수십만 달러를 절약할 수 있습니다.
마지막으로 TigerBot은 중국어의 강력한 연속성과 다중 모호성 문제를 처리하기 위해 토크나이저부터 훈련 알고리즘까지 해당 최적화를 수행했습니다.
결론적으로 TigerBot이 이룩한 기술 혁신은 모두 현재 대형 모델 분야에서 가장 주목받는 분야에서 발생합니다.
기본 아키텍처의 최적화뿐 아니라 구현 수준에서 사용자 요구, 간접비 및 기타 문제도 고려합니다. 그리고 전체 혁신 과정은 매우 빠르며, 약 10명으로 구성된 소규모 팀에서 몇 달 안에 실현할 수 있습니다.
팀의 자체 개발 능력, 기술적 통찰력 및 구현 경험에 대한 요구 사항이 매우 높습니다.
그렇다면 갑자기 TigerBot으로 대중의 시선을 사로잡은 사람은 누구일까요?
TigerBot의 개발팀은 실제로 Hubo Technology라는 이름에 숨겨져 있습니다.
사람들이 흔히 AI 폭발의 마지막 단계라고 부르는 2017년에 설립되었습니다.
Hubo Technology는 NLP 기술 적용에 중점을 두고 "인공지능 기술을 기반으로 하는 회사"로 자리매김하고 있으며, 그 비전은 차세대 지능적이고 간단한 검색 경험을 창출하는 것입니다.
구체적인 구현 경로에서는 데이터 정보에 가장 민감한 분야 중 하나인 금융을 선택했습니다. 지능형 검색, 지능형 추천, 기계 독해, 요약, 수직 분야 번역 등 자체 개발한 기술을 보유하고 있으며 지능형 금융 검색 및 질의응답 시스템 'Hubo Search'를 출시했습니다.
회사의 창립자이자 CEO는 세계적인 AI 과학자인 Chen Ye입니다.
그는 University of Wisconsin-Madison에서 박사 학위를 취득하고 University of California, Berkeley에서 객원 교수로 재직했습니다.
Microsoft, eBay, Yahoo에서 수석 과학자 및 R&D 이사 등 요직을 역임했으며 Yahoo의 행동 타겟팅 시스템, eBay의 추천 시스템, Microsoft의 검색 광고 입찰 시장 메커니즘 개발을 주도했습니다.
2014년 Chen Ye는 Dianping에 합류했습니다. Meituan-Dianping 합병 후, 그는 그룹의 광고 플랫폼을 담당하는 Meituan-Dianping의 수석 부사장을 역임하여 그룹의 연간 광고 수익이 1천만에서 40억 이상으로 증가하는 데 도움을 주었습니다.
학술적으로 Chen Ye는 최고 학회(KDD 및 SIGIR)에서 세 차례 최우수 논문상을 수상했으며, SIGKKD, SIGIR, IEEE 등 인공지능 학술 학회에서 20편의 논문을 발표했으며, 10개의 특허를 보유하고 있습니다.
2017년 7월 Chen Ye는 공식적으로 Hubo Technology를 설립했습니다. Hubo는 설립 1년 만에 빠르게 1억 위안 이상의 자금 조달을 획득했습니다. 회사는 현재 총 자금 조달 금액이 4억 위안에 도달했다고 공개했습니다.
7개월 전 ChatGPT가 탄생했습니다. 6년 만에 AI는 다시 한번 대중의 인식을 뒤바꾸었습니다.
다년간 AI 분야에서 활동해온 첸 예(Chen Ye) 같은 기술 전문가들조차 “그들의 경력에 있어서 유례없는 충격”이라고 표현한다.
충격 외에도 더 흥미진진해요.
Chen Ye는 ChatGPT를 본 후에는 생각하거나 결정할 필요가 거의 없었다고 말했습니다. 마음에서 우러나오는 요청이 그를 확실히 트렌드를 따르게 만들었습니다.
그래서 TigerBot은 1월부터 공식적으로 TigerBot 초기 개발팀을 꾸렸습니다.
근데 제가 상상했던거랑은 좀 다른 긱스타일이 있는 팀이네요.
그들은 1990년대 실리콘 밸리의 고전적인 "Garage Startup" 모델에 경의를 표합니다.
팀에는 처음에는 5명밖에 없었습니다. Chen Ye는 핵심 코드 작업을 담당하는 수석 프로그래머이자 과학자였습니다. 이후 회원 수를 늘렸지만 기본적으로 게시물당 1명씩 10명으로 제한됐다.
왜 이러는 걸까요?
Chen Ye의 대답은 다음과 같습니다.
0에서 1까지의 창조는 매우 괴상한 일이고, 10명 이상의 괴짜 팀은 없습니다.
순전히 기술적이고 과학적인 문제뿐만 아니라 소규모 팀이 더 예리합니다.
실제로 TigerBot의 개발 과정은 모든 면에서 결단력과 감성을 드러냈습니다.
Chen Ye는 이 주기를 세 단계로 나눕니다.
첫 번째 단계에서 ChatGPT가 인기를 얻은 직후 팀은 ChatGPT의 방법과 메커니즘에 대한 일반적인 이해를 얻기 위해 지난 5년간 OpenAI 및 기타 기관의 모든 관련 문헌을 신속하게 스캔했습니다.
ChatGPT 코드 자체가 오픈소스가 아니고 당시 관련 오픈소스 작업이 상대적으로 적었기 때문에 Chen Ye는 직장에 가서 TigerBot 코드를 직접 작성하고 즉시 실험을 시작했습니다.
그들의 논리는 매우 간단합니다. 먼저 소규모 데이터로 모델을 성공적으로 검증한 후 체계적인 과학적 검토를 거쳐 안정적인 코드 세트가 형성됩니다.
한 달 만에 팀은 해당 모델이 70억 규모에서 동일한 규모의 OpenAI 모델의 80% 효과를 달성할 수 있음을 검증했습니다.
두 번째 단계에서는 오픈 소스 모델과 코드의 장점을 지속적으로 흡수하고 특히 중국 데이터를 최적화하여 실제적이고 사용 가능한 모델 버전을 빠르게 내놓았으며, 가장 초기의 내부 베타 버전이 2월에 출시되었습니다. .
동시에 매개변수의 개수가 수백억 수준에 도달한 후 모델이 출현 현상을 보이는 것도 발견했습니다.
3단계, 즉 지난 1~2개월 동안 팀은 기초 연구에서 몇 가지 성과와 획기적인 성과를 거두었습니다.
위에 소개된 많은 혁신이 이 기간 동안 완료되었습니다.
동시에 더 빠른 반복 속도를 달성하기 위해 이 단계에서 더 많은 양의 컴퓨팅 성능이 통합되었으며 TigerBot-7B의 기능은 InstructGPT의 80%에서 96%로 빠르게 증가했습니다.
Chen Ye는 이 개발 주기 동안 팀이 항상 매우 효율적인 운영을 유지해 왔다고 말했습니다. TigerBot-7B는 몇 달 만에 3,000번의 반복을 거쳤습니다.
소규모 팀의 장점은 오전에 작업을 확인하고 오후에 코드 작성을 완료할 수 있다는 점이에요. 데이터 팀은 몇 시간 만에 고품질 청소 작업을 완료할 수 있습니다.
그러나 고속 개발 반복은 TigerBot의 괴짜 스타일 표현 중 하나일 뿐입니다.
몇 달 동안 10명이 생산한 결과에만 의존하고 이를 전체 API 세트 형태로 업계에 공개할 것이기 때문입니다.
이 정도까지 오픈 소스를 수용하는 것은 현재 추세, 특히 상용화 분야에서 상대적으로 드뭅니다.
결국 치열한 경쟁 속에서 기술적 장벽을 쌓는 것은 영리기업이 직면해야 할 문제입니다.
그렇다면 휴보테크놀로지가 감히 오픈소스에 나선 이유는 무엇일까요?
Chen Ye는 두 가지 이유를 밝혔습니다.
첫 번째, AI 분야의 기술자로서 기술에 대한 가장 본능적인 믿음 중에서 그는 약간 열정적이고 약간 선정적입니다.
세계적 수준의 대형 모델로 중국의 혁신에 기여하고 싶습니다. 탄탄한 기반을 갖춘 유용한 일반 모델을 업계에 제공하면 더 많은 사람들이 대규모 전문 모델을 신속하게 교육하고 산업 클러스터의 생태적 생성을 실현할 수 있습니다.
두 번째, TigerBot은 계속해서 고속 반복을 유지할 것입니다. Chen Ye는 이러한 경주 상황에서 위치 우위를 유지할 수 있다고 믿습니다. 누군가 TigerBot을 기반으로 더 나은 성능의 제품을 개발하는 것을 본다고 해도 이는 업계에 좋은 일이 아닐까요?
Chen Ye는 Hubo Technology가 계속해서 TigerBot의 작업을 빠르게 발전시키고 데이터를 더욱 확장하여 모델 성능을 향상시킬 것이라고 밝혔습니다.
ChatGPT 출시 6개월 만에 대형 모델의 속속 등장과 거인의 빠른 추격으로 AI 업계 지형이 바뀌고 있다. 빠르게 재형성됨.
지금은 여전히 상대적으로 혼란스럽기는 하지만 대략적으로 말하면 기본적으로 모델 계층, 중간 계층, 애플리케이션 계층의 세 가지 계층으로 나뉩니다.
모델 계층은 매우 중요한 기본 기능을 결정합니다.
혁신, 안정성 및 개방성의 정도는 애플리케이션 계층의 풍부함을 직접적으로 결정합니다.
애플리케이션 계층의 개발은 AIGC 비전에서 인간 사회 생활의 다음 단계에 중요한 영향을 미치는 요소이기도 합니다.
그러므로 빅 모델 트렌드의 출발점에서 어떻게 기본 모델 기반을 공고히 할 것인가는 업계가 고민해야 할 문제입니다.
Chen Ye의 견해에 따르면 인간은 대형 모델 잠재력의 10~20%만을 개발했으며 근본적인 수준에서는 여전히 혁신과 개선의 여지가 많습니다.
원래 금광이 발견되었던 서부의 골드러시처럼요.
이러한 트렌드와 산업 발전의 요구 속에서 휴보테크놀로지는 국내 분야의 혁신을 대표하는 기업으로서 오픈소스라는 기치를 높이 들고 빠르게 세계 최첨단 기술을 따라잡기 시작했으며 실제로 업계 호흡과의 차이.
국내 AI 혁신은 빠른 속도로 진행되고 있습니다. 앞으로는 더 많은 아이디어와 역량을 갖춘 팀이 등장하여 대형 모델 분야에 새로운 통찰력을 불어넣고 새로운 변화를 가져올 것이라고 믿습니다.
그리고 이는 트렌드의 활발한 진화에서 가장 매력적인 부분일 수 있습니다.
타이거봇의 아동화를 체험하고 싶으신 분은 아래 링크를 통해 홈페이지에 들어가시거나, "원문 읽기"를 클릭하신 후, "내부 테스트 신청"을 클릭하신 후, 조직 코드에 "qubit"을 적어주시면 됩니다. 내부 테스트 통과~
공식 홈페이지 주소: https://www.tigerbot.com/chat
GitHub 오픈 소스 주소: https://github.com/TigerResearch/TigerBot
위 내용은 같은 규모의 OpenAI 모델의 96%에 달하는 효과를 발휘하며, 출시되자마자 오픈소스로 공개됩니다! 국내 팀은 새로운 대형 모델을 출시하고 CEO는 코드 작성 전투에 나선다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!