首頁 科技週邊 人工智慧 中國最強AI研究院的大模型為何遲到了

中國最強AI研究院的大模型為何遲到了

Jun 26, 2023 pm 07:43 PM
大模型 延遲 ai研究院

中國最強AI研究院的大模型為何遲到了

出品|虎嗅科技小組

作者|齊健

編輯|陳伊凡

頭圖|FlagStudio

##「OpenAI會再開源大模型嗎?」

當智源研究院理事長張宏江向線上參加2023年智源大會的OpenAI首席執行官Sam Altman問及開源問題時,Sam Altman微笑表示,OpenAI未來會開放更多代碼,但沒有具體的開源時間表。

這樣的討論來自這次智源大會的話題之一—開源大模型。

6月9日,2023年智源大會在北京舉行,座無虛席。在大會現場,「算力」、「大模型」「生態」等與AI相關的字詞時不時出現在與會者的聊天中,還有這個產業鏈上的各家公司。

中國最強AI研究院的大模型為何遲到了

本次大會上,智源研究院發布了全面開源的悟道3.0。包括視覺大模型系列“視界”,語言大模型系列“天鷹”,以及獨創的大模型評測體系“天秤”

大模型開源,就意味著公開模型程式碼,供AI開發者研究。 悟道3.0中的「天鷹」基礎層語言模型還是一款可商用的模型,每個人都可以免費使用這款大模型。

目前,微軟的深度合作夥伴OpenAI、Google和BAAI是在人工智慧領域處於前沿地位的三個機構。 「微軟總裁Brad Smith在不久前的一次採訪中,曾提到一家與OpenAI、谷歌齊名的中國「最強」AI研究機構BAAI,這家機構就是北京智源人工智慧研究院。眾多業界人士認為,由這個研究院主辦的人工智慧大會是產業趨勢的指向標。

被微軟總裁高度認可的智源研究院,早在2020年10月已啟動了AI大模型「悟道」項目,並先後發布了悟道大模型1.0和2.0兩個版本。 其中悟道2.0官方公佈的參數規模達到1.7兆。彼時,OpenAI公佈1750億參數的GPT-3模型也才一年時間。

不過,就是這樣一個AI大模型的先行者,在最近半年的AI大模型熱潮中,卻異常低調。

當大廠和創業公司中,大模型層出不窮時,智源在過去三個多月裡,對外一直保持“靜默”狀態,除了4月上旬與Meta的摳圖AI“SAM”撞車的“ SegGPT”,幾乎沒有向公眾透露任何有關AI大模型的資訊。

對此,AI產業內外的許多人都有疑問,在AI大模型領域領先的智源研究院,為什麼在大模型的高潮時刻似乎來遲了?

開源模型要拆了OpenAI的護城河嗎?

「雖然現在的大模型競爭火熱,但無論是OpenAI還是谷歌,都沒有護城河,因為『開源』正在AI大模型領域崛起。」

############################# ###在一份Google洩漏的文件中,Google內部研究人員認為,開源模型或將引領大模型發展的未來,這份文件中提到「###開源模型的迭代速度更快,可自訂性更強,更有私密性,而當免費的、不受限制的替代品質量相當時,人們不會為受限制的模型付費。###」這或許也是智源選擇開發開源大模型的原因之一。 ### ###目前,開源的商用大模型不多,智源研究院對目前已發布的部分AI大模型進行了一個調查,在國外發布的39個開源語言大模型中,可商用的大模型有16個。在國內發表的28個大語言模型中,共有11個是開源模型,但其中只有1個是開源可商用的模型。 ### ###智源這次發布的大語言模型是開源且可商用的模型,也是目前為數不多的可商用開源大語言模型之一,這也決定了這樣的模型在發布之前需要更加謹慎。 ### ###「就智源來說,肯定不希望開源模型太難看,所以會謹慎發布。」智源大會現場的一位AI研究員表示,開源模型難免要被反覆驗證,被大量開發者挑bug,為了確保開源模型的質量,智源的研發進度可能被「開源」拖慢了一些。 ### ###智源研究院院長黃鐵軍認為,目前我國市場上大模型的開源開放力度遠遠不夠,「###我們應該進一步加強開源開放。開源開放也是競爭,真有水平、真有好演算法,拿出來評測、去比,才能證明技術水準。###」### ###國內廠商發布大模型時,缺乏透明度,許多人懷疑這些廠商是否真正進行了自主研發。有人說他們是API呼叫ChatGPT,也有人說他們用Meta洩漏的LLaMA模型 ChatGPT的答案資料訓練而來,開源模型則從源頭斷絕了這些質疑。 ###

不過,開源模型,提高技術透明度不是為了自證清白,而是真的要「集中力量辦大事」。 據智源資料顯示,天鷹大語言模型每天的訓練成本在10萬元以上,而在國內「百模大戰」甚至「千模大戰」的大勢下,許多行業中都在進行大量不必要的重複訓練,導致的重複開支可能是天文數字。

而開源模型可以減少重複訓練,對於有模型需求的企業來說,直接利用開源可商用的AI大模型,結合自身資料進行訓練,或許是AI落地和產業應用的最優解。

開源的另一方面考慮,在於前期累積使用者和開發者,以便建立良好生態,並實現未來的商業化。一位國內大模型公司創辦人告訴虎嗅,「OpenAI的GPT-1和GPT-2都是開源的大模型,這是為了累積用戶,提高模型的認可度。一旦GPT-3的模型能力得到充分展現,商業化就會成為考慮的重點,而這個模型也會逐漸變得封閉。因此,開源模型一般不會允許商用,這也是出於後續商業化的考慮。」

但顯然,智源作為非營利的研究機構,在開源問題上,並沒有商業化的考量。對智源而言,在模式開源方面,一方面是希望透過對底層模式等開源開放,促進AI大模型產業的科學研究創新,加速產業落地。另一方面,或許也是想要基於開源模型累積更多的使用者回饋,提升大模型在工程上的可用性。

不過,模型開源也並非「完美」。

一位大廠AI技術總監告訴虎嗅,目前的AI大模型的商業化市場可以分為三層,第一層是完全具備自研模型能力的頭部大玩家,第二層是需要根據特定場景訓練專有模型的企業,第三層則是只需要通用模型能力,使用API​​介面呼叫即可滿足需求的中小客戶。

在這個背景下,開源模型對於有自研能力的頭部玩家來說,可以幫助他們省去了大量研發模型的時間和成本。但對於第二層和第三層企業來說,則需要他們自己組建技術團隊去對模型進行訓練和調優,而這對於許多技術實力不那麼雄厚的企業來說,反而把落地流程變得更加複雜了,開源對他們來說似乎有一些「免費的東西最貴」的感覺。

此「悟道」已非彼「悟道」

智源的悟道3.0,是一套完全重新開發的大模型系列,這也是其「遲發」的原因之一。

既然已經有了悟道2.0的基礎,智源為什麼要重新開發一套模型體系? 一方面是模型的技術方向調整,另一方面則是由於模型底層訓練資料的「換血」。

「悟道2.0的研發是在2021年,所以無論是語言模型(如GLM)還是文生圖模型(如CogView),其所基於的演算法架構從現在來看是比較早的。在過去一年多,相關領域的模型架構已經有了更多的驗證、或演進。例如,語言模型中採用decoder only的架構,已經證實,加以更高質量的數據,可以在大規模參數的基礎模型中,獲得更好的生成性能。在文生圖模型中,我們改用了基於difussion來進行進一步的創新。所以在悟道3.0中,我們對語言大模型、文圖生成大模型等都採用了這些更新的架構來重新開發。」在智源研究院副院長兼總工程師林詠華表示,基於過去模型的研究,悟道3.0在許多方向進行了重構。

另外,悟道3.0也對底層模型的訓練數據進行了全面優化升級,訓練數據中使用了更新的悟道中文數據,包括2021年到現在的,並進行了更嚴格的質量清洗;另一方面,增加了大量的高品質中文,包括中文書籍、文獻等;此外還增加了高品質的程式碼資料集等,因此基礎模型也發生了很大的變化。

底層模型訓練資料非原生中文,導致許多國內模型在中文理解能力上有問題。許多國內外的AI大型模型都使用了海量來自國外的開源資料來進行訓練。其中主要的來源包括著名的開源資料集Common Crawl。

智源對100萬個Common Crawl網頁資料進行分析,可以擷取中文的網頁有39052個。從站源角度來看,可以提取出中文的網站共有25842個,其中IP在中國內地的,只有4522個,佔比僅17%。 這樣不只中文資料的準確度大打折扣,安全性也很低。

「訓練基礎模型的語料很大程度上會影響AIGC應用、微調後的模型等內容生成的合規、安全和價值觀。」林詠華表示,天鷹基礎模型的中文能力不是簡單的翻譯,而是把足夠多中文的知識“壓到這個模型裡”,它的中文互聯網數據99%來自國內網站,企業可以放心地基於它做持續訓練。

同時,透過大量對資料、數字的精細化處理和清洗,達到用少的資料量來訓練出一樣性能甚至性能更好的模型,這個資料甚至低到30%、40%的資料量就能趕上或超過現有的開源模型了。

如今看來,這條路徑對於智源來說,也許是個更優解。因為在訓練資料方面,智源與網路廠商相比存在短板。大型網路企業擁有豐富的使用者互動數據,同時也有大量版權數據可供訓練。就在不久前,阿里達摩院剛發布來一款視訊語言資料集Youku-mPLUG,其中的所有內容均來自阿里旗下的影片平台都很酷。

由於智源沒有深厚的使用者基礎,所以在訓練資料方面,只能透過與版權方協商獲得授權,並透過一些公益資料專案一點點來收集累積。

但是,目前智源的中文資料集還只能做到部分開源,其主要原因是,中文資料的版權分散在各個機構手中,目前智源的訓練資料是在多方協調下,獲得的針對開源模型研究開放的使用權限。大部分資料只能應用在智源的模型中,而沒有開放二次使用的權利。

國內很有必要建立針對數據集的產業聯盟,把版權所有方聯合在一起,對人工智能方面的訓練數據進行統一規劃,但這需要頂層設計的智慧。”林詠華告訴虎嗅。

國內大模型產業的黃埔軍校

悟道3.0正在講一個與悟道2.0不同的故事,研發團隊的變化是其中之一。作為AI大模型產業的先驅,智源研究院就像是國內AI大模型的黃埔軍校。 上到智源學者,下至基層工程師,在今天的大模型熱潮中,都成了行業裡的香餑餑,智源的原始團隊中,也孵化了幾個大模型的創業團隊。

在悟道3.0之前,一個大模型系列是由多個外部實驗室聯合發布的研究成果的組合,而這次的悟道3.0是由智源團隊完全自研的系列模型。

悟道2.0模型是2021年發布的,其中包括文源、文瀾、文彙和文溯。其中,兩個核心模型分別由清華的兩個實驗室主力完成。如今,這兩個團隊已經創辦了各自的公司,並在CPM和GLM的研發方向上發展了獨立的產品。

其中,GLM的主力研發團隊清華大學知識工程研究室(KEG),就與智譜AI一同推出了開源模型ChatGLM-6B,並得到了業界的廣泛認可;CPM的主力研發團隊,清華大學電腦係自然語言處理與社會人文計算實驗室(THUNLP)中的部分成員組成的深言科技,成立一年就受到了各家資本的青睞,今年的兩輪融資中分別出現了騰訊投資、紅杉中國、奇績創壇等基金的身影。

有接近智源研究院的人士告訴虎嗅,自從國內AI大模型升溫以來,智源團隊成為了人才大戰的“圍獵目標”,“整個研發團隊都被其他公司或獵頭盯上」。

當下國內AI大模型產業,最不缺的是錢,最缺的就是人。在獵聘、脈脈、BOSS直聘三個平台搜尋ChatGPT,碩博學曆職位的月薪普遍高於3萬,最高值9萬。 「在薪資方面IT大廠並不會佔多少便宜,AI大模型的研發都是高舉高打,創業公司給的薪資可能更有競爭力。」西湖心辰COO俞佳對虎嗅表示,人才大戰在AI產業將會越來越激烈。

「薪資double,在智源的許多員工看來根本就沒有競爭力。因為現在都是拿著五倍甚至十倍薪水來挖人。即使你再有理想,對未來再有規劃,也很難頂住過百萬年薪的誘惑。」一位接近智源的人士告訴虎嗅,由於智源是一家非營利研究機構,薪酬水平很難與互聯網大廠或者是背後有大量資本支持的創業公司相比。

經由獵人頭了解,虎嗅得知自然語言處理專家的起薪目前都超過100萬人。對一些工作年資長,薪水不高的員工來說,面對幾倍的薪水很難不動搖。

不過,從目前智源的公開數據來看,智源研究院的各個核心專案團隊帶頭人,多數還在全職負責智源研究院的研發專案。

悟道3.0的模型全部是智源自己的研究人員開發的,包括天鷹、天秤,以及視界。」林詠華表示,智源研究院目前的研發實力在業界一直是頂尖的。

正在改變與想要改變世界的人,都在虎嗅APP

以上是中國最強AI研究院的大模型為何遲到了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

大模型App騰訊元寶上線!混元再升級,打造可隨身攜帶的全能AI助理 大模型App騰訊元寶上線!混元再升級,打造可隨身攜帶的全能AI助理 Jun 09, 2024 pm 10:38 PM

5月30日,騰訊宣布旗下混元大模型全面升級,基於混元大模型的App「騰訊元寶」正式上線,蘋果及安卓應用程式商店皆可下載。相較於先前測試階段的混元小程式版本,面向工作效率場景,騰訊元寶提供了AI搜尋、AI總結、AI寫作等核心能力;面向日常生活場景,元寶的玩法也更加豐富,提供了多個特色AI應用,並新增了創建個人智能體等玩法。 「騰訊做大模型不爭一時之先。」騰訊雲副總裁、騰訊混元大模型負責人劉煜宏表示:「過去的一年,我們持續推進騰訊混元大模型的能力爬坡,在豐富、海量的業務場景中打磨技術,同時洞察用戶的真實需求

位元組跳動豆包大模型發布,火山引擎全端 AI 服務協助企業智慧轉型 位元組跳動豆包大模型發布,火山引擎全端 AI 服務協助企業智慧轉型 Jun 05, 2024 pm 07:59 PM

火山引擎總裁譚待企業要做好大模型落地,面臨模型效果、推理成本、落地難度的三大關鍵挑戰:既要有好的基礎大模型做支撐,解決複雜難題,也要有低成本的推理服務讓大模型廣泛應用,還要更多工具、平台和應用程式幫助企業做好場景落地。 ——譚待火山引擎總裁01.豆包大模型首次亮相大使用量打磨好模型模型效果是AI落地最關鍵的挑戰。譚待指出,只有大的使用量,才能打磨出好模型。目前,豆包大模型日均處理1,200億tokens文字、生成3,000萬張圖片。為助力企業做好大模型場景落地,位元組跳動自主研發的豆包大模型將透過火山

利用昇腾AI技术,秦岭·秦川交通大模型助力西安打造智慧交通创新中心 利用昇腾AI技术,秦岭·秦川交通大模型助力西安打造智慧交通创新中心 Oct 15, 2023 am 08:17 AM

“高度复杂、碎片化程度高、跨领域”一直是交通行业数智化升级路上的首要痛点。近日,由中科视语、西安市雁塔区政府、西安未来人工智能计算中心联合打造的参数规模千亿级的“秦岭·秦川交通大模型”,面向智慧交通领域,为西安及其周边地区打造智慧交通创新支点。“秦岭·秦川交通大模型”结合西安当地海量开放场景下的交通生态数据、中科视语自研的原创先进算法以及西安未来人工智能计算中心昇腾AI的强大算力,为路网监测、应急指挥、养护管理、公众出行等智慧交通全场景带来数智化变革。交通管理在不同城市有不同的特点,不同道路的交

揭露NVIDIA大模型推理架構:TensorRT-LLM 揭露NVIDIA大模型推理架構:TensorRT-LLM Feb 01, 2024 pm 05:24 PM

一、TensorRT-LLM的產品定位TensorRT-LLM是NVIDIA為大型語言模型(LLM)所開發的可擴展推理方案。它基於TensorRT深度學習編譯框架建構、編譯和執行計算圖,並藉鑒了FastTransformer中高效的Kernels實作。此外,它還利用NCCL實現設備間的通訊。開發者可以根據技術發展和需求差異,客製化算子以滿足特定需求,例如基於cutlass開發客製化的GEMM。 TensorRT-LLM是NVIDIA官方推理方案,致力於提供高效能並不斷完善其實用性。 TensorRT-LL

對標GPT-4!中國移動九天大模型通過雙備案 對標GPT-4!中國移動九天大模型通過雙備案 Apr 04, 2024 am 09:31 AM

4月4日消息,日前,國家網信辦公佈已備案大模型清單,中國移動「九天自然語言交互大模型」名列其中,標誌著中國移動九天AI大模型可正式對外提供生成式人工智慧服務。中國移動表示,這是同時透過國家「生成式人工智慧服務備案」和「境內深度合成服務演算法備案」雙備案的首個央企研發的大模型。據介紹,九天自然語言交互大模型具有產業能力增強、安全可信、支援全端國產化等特點,已形成90億、139億、570億、千億等多種參數量版本,可靈活部署於雲、邊、端不同場

工業知識圖譜進階實戰 工業知識圖譜進階實戰 Jun 13, 2024 am 11:59 AM

一、背景簡介首先來介紹雲問科技的發展歷程。雲問科技公...2023年,正是大模型盛行的時期,很多企業認為已經大模型之後圖譜的重要性大大降低了,之前研究的預置的資訊化系統也都不重要了。不過隨著RAG的推廣、資料治理的盛行,我們發現更有效率的資料治理和高品質的資料是提升私有化大模型效果的重要前提,因此越來越多的企業開始重視知識建構的相關內容。這也推動了知識的建構和加工開始向更高層次發展,其中有許多技巧和方法可以挖掘。可見一個新技術的出現,並不是將所有的舊技術打敗,也有可能將新技術和舊技術相互融合後

新測試基準發布,最強開源Llama 3尷尬了 新測試基準發布,最強開源Llama 3尷尬了 Apr 23, 2024 pm 12:13 PM

如果試題太簡單,學霸和學渣都能考90分,拉不開差距……隨著Claude3、Llama3甚至之後GPT-5等更強模型發布,業界急需一款更難、更有區分度的基準測試。大模型競技場背後組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關注。 Llama3的兩個指令微調版本實力到底如何,也有了最新參考。與先前大家分數都相近的MTBench相比,Arena-Hard區分度從22.6%提升到87.4%,孰強孰弱一目了然。 Arena-Hard利用競技場即時人類數據構建,與人類偏好一致率也高達89.1%

小米位元組聯手!小愛同學接入豆包大模型:手機、SU7已搭載 小米位元組聯手!小愛同學接入豆包大模型:手機、SU7已搭載 Jun 13, 2024 pm 05:11 PM

6月13日消息,根據字節旗下「火山引擎」公眾號介紹,小米旗下人工智慧助理「小愛同學」與火山引擎達成合作,雙方基於豆包大模型實現更智慧的AI互動體驗。據悉,位元組跳動打造的豆包大模型,每日能夠高效處理數量多達1200億個的文本tokens、生成3000萬張內容。小米借助豆包大模型提升自身模型的學習與推理能力,打造出全新的“小愛同學”,不僅更加精準地把握用戶需求,還以更快的響應速度和更全面的內容服務。例如,當使用者詢問複雜的科學概念時,&ldq

See all articles