OpenAI 現已成為全球人工智慧領域的追擊目標。
繼Google獻上「Bard」後,中國科技圈也開始沸騰,原本苦哈哈的自然語言處理科研團隊,如今成了大家的香餑餑。一場關於資本與人才的競爭已經拉開。
「打造中國版 ChatGPT」,在王慧文的英雄帖中傳出,一傳十、十傳百,成為中國 AI 從業者的共同目標。
然而,無論近日來關於ChatGPT 的討論有多火熱,我們都要直視一個殘酷的現實:在追擊OpenAI 的這場競技中,最終能攻上光明頂的團隊不多。
一方面是成本高昂,「煉」大模型的資金只是打造 ChatGPT 的入場券;另一方面,則是能訓練大模型的人才有限。大模型是 OpenAI 打造 ChatGPT 的技術基石,能否找到適合的人,也極為關鍵。
大模型必然是一個產學研合力的方向,ChatGPT 的入局者要想取勝,不僅要有頂尖科學家,還需要有對政商環境有理解、有經驗的運營團隊,也要有在資本市場有號召力、願意All in 的明星創業家加入。
本篇旨在從學術研究的角度出發,對國內各大潛在力量在這一波 ChatGPT 競賽中的位置進行盤點。
在一眾大學中,清華大學的位置當屬最前。
清華是國內自然語言處理領域(NLP)的學術研究重地,其NLP 的研究歷史深厚, 研究隊伍龐大,有唐傑、孫茂松、劉知遠、黃民烈等知名學者坐鎮,他們近年來在語言大模型領域的工作十分突出。而且,各大廠的大模型領導者中,也有多位是清華子弟,如京東集團副總裁何曉冬、華為雲人工智慧領域首席科學家田奇等。
梳理下來,清華系追趕這一波ChatGPT 的潛在力量主要有三:一是知識工程實驗室(KEG),由李涓子和她的弟子唐傑帶隊;二是自然語言處理與社會人文計算實驗室(THUNLP),學術帶頭人為孫茂松,團隊主力劉知遠是其門下高徒;三是互動式人工智慧課題組(CoAI),由朱小燕及其學生黃民烈共同領導。
在上一波煉大模型熱潮中,清華大學電腦系教授唐傑是最突出的學術代表之一。 2020 年,他聚合北京高校,領銜研發了智源研究院的「悟道」1.0 和 2.0 大模型。
##唐傑
同時,唐傑也是一個十分注重產學研結合與大模型生態建設的學者。 2019 年,依托明星產品AMnier 與知識工程實驗室的技術成果,唐傑與李涓子帶領成立了智譜 AI。現公司團隊有多位唐傑的學生,都是參與「悟道」2.0 的主力。
唐傑是資料探勘方向出身,李涓子則是知識圖譜方向著名學者,這決定了智譜 AI 做大模型的特色是「數據 知識」。去年,智譜 AI 發布了雙語千億大模型 GLM-130B,並以開源開放的形式供研究機構或個人免費下載使用。
##################GLM-130B 採用了KEG 實驗室在2021 年提出的GLM 模型架構,在多個任務上效能優於OpenAI 的GPT-3 模型。透過模型量化技術,唐傑團隊也提高了模型的易用性,降低了計算成本,GLM-130B 可在一台 A 100 或 V100 伺服器上進行推理。 ######此外,唐傑團隊也與多家大企業建立交流與聯繫,支持企業開發大模型,例如阿里的 M6。唐傑的學生楊植麟是 NLP 創業公司循環智能的共同創辦人,也參與了華為「盤古」大模型的研發工作。
據內部人員透露,目前智譜 AI 已在研究類 ChatGPT 產品,將於近兩個月內推出。
#從NLP 的學科方向上看,清華系中最為「根正苗紅」的一支是孫茂松、劉知遠團隊。
清華大學自然語言處理與社會人文計算實驗室(THUNLP),是國內最早進行 NLP 研究、且極具影響力的科研單位。實驗室於 1970 年代末成立之初,由中國 NLP 開山人物黃昌寧帶領,ACL Fellow 孫茂松是他的學生,劉知遠則是孫茂鬆的學生。
孫茂松(左)、劉知遠(右)
孫茂松(左)、劉知遠(右)
THUNLP 在NLP 領域累積深厚,曾於2015 年發布中文詩歌生成系統「九歌」,基於大量人類創作詩歌進行訓練,在學界和業界引起廣泛關注。
在語言大模型方面,孫茂松、劉知遠團隊從2018 年跟進預訓練範式,2019 年初發布了ERNIE 語言模型(與同時期百度版ERNIE 同名),之後研發了CPM 模型,是智源研究院「悟道‧文源」的前身。
孫茂松、劉知遠及其門下畢業的學生,在 NLP 和大模型領域已孵化了多家公司。包括塗存超於 2017 年創立的冪律智能,專注於 NLP 在法律領域的應用;豈凡超於 2022 年成立的深言科技,致力於以自研中文大模型建構工業級中文資訊處理引擎。
另外還有曾國洋去年創立的面壁智能,專注於大模型加速與應用落地,公司團隊為「悟道·文源」的主幹成員。他們聯合 THUNLP 與智源研究院語言大模型技術創新中心發起了 OpenBMB 開源社區,推出了 CPM-Live 百億中文大模型直播訓練項目,以及大模型全流程加速工具。
聆心智能黃民烈
ChatGPT 作為一個聊天機器人,背後有對話系統技術做支撐,在這一方向上,清華大學互動式人工智(CoAI)課題組的研究十分突出。
CoAI 由朱小燕和她的學生黃民烈坐鎮。黃民烈是對話式人工智慧領域的專家,著有《現代自然語言生成》一書,先前也參與了智源「悟道」大模型的研發。
黃民烈
######黃民烈也是清華系學者中下場創業的一員,他於2021 年創立了「聆心智能」。基於大模型和對話系統的研究基礎,黃民烈選擇了心理諮商聊天機器人賽道。 2022年,他的團隊推出了一個名為「AI 烏托邦」的互動機器人,用戶可以自訂 AI 角色,與機器人進行深入對話。 ######作為國內為數不多有實力訓練大模型的團隊之一,黃民烈在近日完成Pre-A 輪融資後稱,相比ChatGPT,他們更希望將“聆心智能”定位為“中國的Character AI」-在文字生成的基礎上,提供使用者情感的陪伴。據了解,其團隊在心理健康領域已累積大量優質訓練數據,模型參數量超 30 億。
在國內網路廠中,在大模型方面領先的第一梯隊包括百度、阿里、京東與華為。除此之外,這一波宣布入場研發 ChatGPT 的網路公司還有騰訊、位元組跳動、快手、360、科大訊飛、網易等。在軍備競賽般的 ChatGPT 研發中,大廠的鈔能力無疑佔有絕對優勢。
有業界人士評價,目前360 在內的一些大廠在類ChatGPT 技術上的各項指標只能達到略強於GPT-2 的水平,與目前的ChatGPT相較於仍有代差的落後,在語言大模型上屬於赤手空拳上陣(如快手、科大訊飛、網易等),所以,類ChatGPT 測試版的推出時間以及實際效果均存在重大不確定性。
#在自然語言處理領域,百度是一眾大廠中技術積累歷史最長的一個。
百度文心大模型的研發由 CTO 王海峰帶隊。在「文心一言」計畫中,王海峰也是擔任總指揮,另有核心成員吳甜(百度集團副總裁、飛槳平台研發領銜人物)與吳華(百度技術委員會主席、百度翻譯技術團隊創始人之一)。
王海峰
百度是國內最早深耕預訓練模型研發的團隊之一,2019 年就發布了中文效果超越BERT 的ERNIE 1.0 和2.0 模型;2021 年7 月發布的ERNIE 3.0, 在SuperGLUE 上超越了GPT-3;同年發布的“鵬程-百度文心」(ERNIE 3.0 Titan)則是首個知識增強千億級大模型。
「知識增強」是文心系列所走的技術路線,即引入語言知識和世界知識等,從大規模知識圖譜和大量資料中融合學習,以提升大模型的學習效率和可解釋性。
2021 年,百度也推出一款名為 PLATO 的對話機器人,模型基礎是百億參數對話產生大模型 PLATO-XL。
百度的優勢在於其豐富的搜尋語料數據,深耕 AI 研究多年的用戶數據,並有百度飛槳深度學習平台、自研晶片加持。
微軟與Google激烈開戰之後,百度是國內最早宣布其研發類 ChatGPT 產品(「文心一言」)計畫的團隊之一。內部人員透露,其產品形態或為獨立入口,或效法微軟 Bing、與百度搜尋入口聯通。
#阿里巴巴達摩院從2021 年入局大模型,參與了智源研究院「悟道文匯」大模型的研發,後來推出純文字預訓練語言模型PLUG(270億參數),完全參考GPT-3 的架構,集語言理解與生成能力於一身,水平接近GPT- 3。
達摩院原智慧運算實驗室成員楊紅霞(已於去年離職)與清華唐傑團隊合作研發的M6 多模態大模型系列,參數也從百億升至十萬億。
在現任達摩院副院長週靖人的主導下,達摩院於去年9 月推出了目前阿里大模型成果的集大成之作,即「通義」大模型。
週靖人
「通義」大模型首次統一了模態、架構和任務,背後的技術支撐是統一學習範式OFA。
去年,為推進中文大模型的開源生態建設,達摩院也推出了AI 模型開源社群“魔搭」(Model Scope),在業界引起巨大反響。
日前,達摩院已確認其正在研發基於「通義」大模型的阿里版 ChatGPT,除了文本生成外,還具備繪畫功能。據了解,其類 ChatGPT 產品將和釘釘深度結合。
#京東從2020 年開始研究AI 文本生成,以支援京東商城商品頁面描述的產生。有消息透露,京東商城頁面中,20% 的產品介紹都是由 AI 團隊用 NLP 技術產生。期間,由於 NLP 技術的整體消沉,研發受阻,但後來京東又重新重視,推出了言犀大模型。
2018 年從微軟離開加入京東的何曉冬,是現任京東集團副總裁、京東 AI 研究院執行院長,也是如今京東大模型研究團隊的領導者。
何曉冬
2021 年,他與原京東AI 掌門人周博文(已於2021 年11 月離職)帶隊,在京東言犀篇平台上研發了領域模型K-PLUG。此模型與京東的電商場景緊密結合,從電商領域特定知識中學習,能夠自動產生商品文案。
京東目前還沒有千億級參數的大模型,K-PLUG 也只有10 億參數,但這次京東雲言犀平台也宣布入局,將推出ChatGPT 產品“ChatJD”,並強調其“產業版”色彩。
#華為的運算資源為其研究大模型提供了天然優勢。
華為從 2020 年開始佈局大模型,領導者是田奇(IEEE Fellow、國際歐亞科學院院士)。
田奇
2020 3月,他加入華為雲擔華為雲人工智慧領域首席科學家,同年夏GPT-3 問世後,他就立即組建團隊,開始了盤古大模型的研發。華為因此成為 2020 年最早參與大模型競賽的大廠之一。
基於昇騰AI,與鵬程實驗室、循環智能合作,華為於2021 年4 月發布了「盤古」系列大模型,包括中文語言、視覺、多模態、科學計算四個大模型。
盤古 NLP 大模型是業界首個千億級生成和理解中文大模型。在預訓練階段就學習了 40 TB 的中文文字數據,包括細分行業的小樣本數據。在模型結構上,盤古採用 Encode 和 Decode 的架構,保證了其在生成和理解上的表現。
華為有千億模型的研發經驗,也有強大的運算資源,但這次其發聲甚少,尚未明確是否會研發類ChatGPT 產品。
ChatGPT 帶來的這一波AI 商業化熱潮有著極高的技術壁壘,同時也給了科學家下場創業的巨大機會。
如瀾舟科技創辦人周明、IDEA 研究院講席科學家張家興、西湖心辰藍振忠、銜遠科技創辦人周伯文等人,都是學術新創派的代表。
對他們而言,要在未來的 ChatGPT 商業戰中獲勝,還需要補強工程化和市場運作的能力。就像張家興和藍振忠,已經在為他們的研發團隊尋找一個 CEO。
此外,我們還能觀察到兩種入局模式:一種是以強大的技術能力為基礎,去彌補商業化方面的短板;另一種是商業化經驗豐富的大佬下場,吸引技術人才組隊。
最終哪一種模式能更成功,我們拭目以待。
#在上一輪大模型堆參數的潮流正當火熱之時,周明獨闢蹊徑,為其新創公司瀾舟科技選擇了一條輕量化大模型的路線。
2021 年6 月,周明成立瀾舟科技,在緊接著的7 月,他的團隊就發布了十億參數的「孟子」模型,效果可比肩千億大模型。
這是周明在學術界和產業界兩開花的結果。
週明
週明是NLP 領域極具影響力的華人科學家之一。他於 1991 年從哈工大博士畢業,是百度 CTO 王海峰的同門兄弟,哈爾濱工業大學教授、NLP 泰斗李生的高徒。博士期間,周明曾發展出中國第一個中英翻譯系統。
畢業後,周明先是進入清華大學任職任教,並在1999 年被微軟亞洲研究院(MSRA)創始院長李開復挖走,2001 年起擔任NLP 組主任,後升任微軟亞研副院長。
在MSRA 期間,周明在NLP 技術的產業化上成果頗多,他參與帶隊的ACL 頂會論文超過百篇,相關技術還應用到了Windows、Office、 Azure、微軟小冰等世界級產品中。
2020 年,周明決心以一種新的方式尋求學術界與工業界的合作,就結束了在微軟工作的21 年生涯,加入了李開復創辦的創新工場人工智慧工程院,擔任首席科學家,並開始孵化創業團隊,最後成立瀾舟科技。
根據官方消息,瀾舟科技將憑藉其類 ChatGPT 底層技術的語言大模型,與擁有大量數據的中文在線合作,打造國產 ChatGPT。周明團隊會繼續走輕量化模型路線,還是轉向做千億級以上大模型來作為技術支撐,尚不得知。
2022 年,週伯文回到學術界,加盟清華大學,擔任電子工程系長聘教授、清華大學惠妍講席教授,以及電子系協同互動智能研究中心主任。
同時,週伯文還是個新創業者。 2021 年底,他卸任京東集團資深副總裁,離職創立了銜遠科技。
#週伯文
#週伯文是中國科學大學青少年班畢業,博士在科羅拉多大學波爾德分校就讀。畢業後他進入 IBM 工作,曾任 IBM Research 人工智慧基礎研究院(AI Foundations)院長、IBM Watson Group 首席科學家、IBM 傑出工程師等。 2017 年,週伯文加入京東,擔任京東集團副總裁,負責京東的 AI 研究。
NLP、多模態、人機對話等都是周伯文深耕多年的領域。他提出的自註意力融合多頭機制的自然語言表徵機制後來成為Transformer架構的核心思想之一,也提出了 AIGC 領域的兩個自然語言生成模型架構與演算法。 2020 年,他當選 IEEE Fellow。
在周伯文看來,ChatGPT 的核心進展是人的協同和互動學習的提升而非模型變大,而且,ChatGPT 未來必將演變成多模態,這也正是他所領導的協同互動智能研究中心的重點研究方向。
而在銜遠科技,週伯文也已經實現了一些AIGC 的應用,如使用生成式人工智慧加速以消費者和市場為中心的即時創新、提升sku 創新成功率。
粵港澳大灣區,除了鵬城實驗室、騰訊,大模型的玩家還有一個,即IDEA 研究院(全名為「粵港澳大灣區數位經濟研究院」,由沈向洋等知名AI 科學家在2020 年創立。
IDEA 研究院的大模型負責人是張家興,他也是從MSRA 走出的AI 科學家。
張家興
#張家興於2006 年從北京大學電子系博士畢業,師從侯士敏(現北大電子系教授)。畢業後,他先在百度待了一段時間,後加入微軟的Bing搜尋團隊,與週靖人有過合作。之後在MSRA ,張家興從事系統方向的研究,並從2012 年轉向深度學習。
########2014 年,張家興加入阿里iDST(達摩院前身)團隊,一年後又去往螞蟻金服,帶領NLP 技術團隊,將對話機器人應用到金融場景。2020 年,張家興受360 數科CEO 吳海生的邀請,加入360 數科任首席科學家,只待了一年半便離開。############在MSRA 院長週禮棟的推薦下,張家興加入了IDEA研究院,擔任講席科學家,負責認知計算與自然語言研究中心。############張家興團隊在AIGC 這一波中一直較為領先,他主導研發了「封神榜」開源模型系列,並在去年推出了國內第一個中文版Stable Diffusion 模型「太乙」。############ChatGPT 問世之後,張家興在去年底就迅速將團隊的大模型研發轉向了ChatGPT 的對話任務路線。據其透露,其團隊研發的類ChatGPT 模型效果與ChatGPT 相當,且僅有50 億參數,文本生成速度也很快,目前已在內測中,近期將公測。############儘管當前50 億參數的模型已經效果很好,但接下來,張家興計劃研發千億模型支撐的類ChatGPT 產品,並推動其商業化。這也是他最近準備融資、尋找一位CEO 的原因。######## ####西湖###心辰藍振忠###############同樣在為團隊尋找CEO 的,還有西湖心辰的創辦人藍振忠。## #####藍振忠
去年,在眾多國產AI 作畫產品中脫穎而出的「盜夢師」(現改名為「造夢日記」),正是出自藍振忠團隊。
藍振忠本科從中山大學畢業,博士在卡內基美隆大學就讀,期間研究電腦視覺,後來去谷歌工作時轉到自然語言處理方向,依托谷歌的TPU 資源研發了著名的輕量化大模式「ALBERT」。
2020 年 6 月,藍振回國加入西湖大學,創立了深度學習實驗室,開啟語言與視覺結合的多模態研究。
依托西湖大學的科研資源與先前加入的智源「青源會」,藍振忠開啟產研模式,創立了西湖心辰,先是依託大模型研發了心理諮商聊天機器人「小天」,然後在2022 年8 月的Stable Diffusion 浪潮中首發國產作畫產品「盜夢師」。
而在 ChatGPT 出來沒多久,西湖心辰就推出了類似的文本生成產品「心辰 Chat」。不同的是,它可以訪問互聯網,而且是多模態交互,不僅可以生成文本,還可以輸出圖像。
與許多學者出身、下場創業的人一樣,藍振忠也深感團隊需要一位具有管理經驗、資源整合能力強大的CEO,來一起打造中國版OpenAI 。請關注 AI 科技評論明天推播:《藍振忠也發「英雄帖」,中國版 ChatGPT 明星公司尋找 CEO》
#以上是打造中國版 ChatGPT,國內有哪些學術力量能搶灘?的詳細內容。更多資訊請關注PHP中文網其他相關文章!