2022 年 12 月,ChatGPT 橫空出世。 OpenAI 以一個核彈級的成果改變了科學研究和工程應用的典範。在中國,ChatGPT 受到了廣泛的關注與深刻的討論。在過去的一個月裡,我走訪各大高校,研究院,大廠,創業公司,創投;從北京到上海到深圳,跟所有頭部的玩家們全部聊了一遍。 The Game of Scale 在中國已然拉開,風暴中心的玩家們,在已知國內技術和生態與世界前沿的巨大鴻溝下,如何做成這件事?誰能做成這件事?
秦失其鹿,天下共逐之。 ——— 《史記・淮陰侯列傳》
我每接觸到一家新創公司,都會問同一個問題:「ChatGPT 在那裡,你們想做什麼?」 我大概可以收到三種不同的答案。第一個答案很明確,要做中國的 ChatGPT。
1.1 做中國的ChatGPT
#因為它就在那裡,所以想要復現,想要國產化。這是很經典的產品導向中文網路思維。這種想法也是過去二十年,中文網路常見的商業模式:先矽谷做出來一個東西,然後我們把它抄過來。
但這裡的問題是,首先,ChatGPT 可不像叫車軟體,復現難度完全不可同日而語。光從人類的角度來看,GPT 的產生,是這個世界上最頂尖的科學家和工程師們從 2015 年開始就不斷研究的結果。 OpenAI 的首席科學家, Ilya Sutskever[1],深刻地相信 AGI 一定能實現。身為圖靈獎得主 Geoffery Hinton 的大弟子,從 2007 年就開始研究深度學習。他的 citation 有 37 萬,發過的文章精準踩中了過去十年 Deep Learning 的所有關鍵節點。即使是如此強大的團隊,從 GPT 2 到 GPT 3.5 也花了四年的時間,它的科學與工程的難度可想而知。
同時,初代ChatGPT,是OpenAI 在GPT 3.5 的基礎模型上,花了兩星期時間對著dialog 做finetuning 之後隨手丟出來的demo。這裡真正強的並不是 ChatGPT 這個產品,而是底下的 GPT 3.5 基礎模型。這個模型還在不斷地演化,GPT 3.5 系列在2022 年更新了三個大版本[2],每個大版本都顯著強於前一個版本;同樣地,ChatGPT 發布兩個月總共更新了四個小版本[3],每個小版本在單一的維度上都比前一個版本有明顯的改進。 OpenAI 的所有模型都在持續不斷的演化,隨時間推移越來越強。
這也意味著,如果只盯著目前 ChatGPT 這一個產品看,無異於刻舟求劍#。當ChatGPT 出現的時候,它對已有的語音助理們形成了降維打擊;如果看不到基礎模型的演化,即使花個一兩年辛苦做出一個類似的東西,那時候OpenAI 的基礎模型也持續變強,如果他們接著產品化,以新的更強的基礎模型finetune 到一個更強的產品,難道要再被降維打擊一次嗎?
刻舟求劍的做法是行不通的。
1.2 做中國的 OpenAI
#第二個答案是,要做中國的 OpenAI。給出這個答案的玩家,跳出了經典中文網路產品思維。他們不只看到單一產品,也看到了這個產品背後,基礎模型不斷演化的強大驅動力,源自於尖端人才的密度和#先進的組織架構。
所以,如果要做這件事情,不只要看到產品,還要看到它背後的人才團隊和組織架構;按稀缺程度排名的話,人>> 卡>> 錢。
但這裡的問題是,不同的土壤對創新的鼓勵程度是不一樣的。在 OpenAI 剛創立的 2015 年,它的投資者都相信 AGI ,即使當時看不到任何獲利的點。現在GPT 做出來了,國內的投資人也都信了AGI,但相信的點或許也不一樣:到底是信AGI 能賺錢,還是信AGI 能推動人類發展 ?
更進一步地,即使 OpenAI 就產生在這裡,明天就出現,但他們跟微軟達成的 deal,能否跟國內的雲端運算廠商達成呢?大模型的訓練和推理都需要極大的成本,需要一個雲端運算引擎作為支撐。微軟可以傾盡所有,讓整個 Azure 給 OpenAI 打下手[4],這個換到國內,阿里雲有可能給一個新創公司打下手嗎#?
組織架構很重要,只有尖端的人才和先進的組織架構才能推動智能的不斷迭代與進化;但它同樣需要跟所在的土壤做適配,尋找可以flourish的方法。
1.3 探索智能的極限
第三種答案是,要#探索智能的極限。這是我聽到的最好的答案。它遠超刻舟求劍式的經典互聯網產品思維,也看到了組織架構和尖端人才密度的重要性,並且更重要地是它看到了未來,看到了模型演化與產品迭代,思考著如何把最深刻,最困難的問題用最創新的方法來解決。
這就牽涉到了思考大模型的極限思維。
觀察現在的ChatGPT / GPT-3.5 ,它明顯是一個中間狀態,它還有很多顯著可以加強,並且馬上就能加強的點,包括:
以上四點只是現階段可以看到的,馬上就可以加強但暫時還沒有加強的點,隨著時間的推移和模型的演化,會有更多可以被scale 的維度進一步體現。這意味著我們需要有極限的思維,思考當我們把能夠拉滿的維度全部拉滿的時候,模型會是什麼樣子。
2.1 能夠拉滿全部拉滿
模型的輸入框可以接著加長,模型的大小可以繼續增大,模型的數據可以繼續增多,多模態的數據可以融合,模型的專業化程度可以繼續增高,所有這些維度可以繼續往上拉,模型還沒有到極限。極限是一個過程,在這個過程中模型的能力會如何發展呢?
所以,在極限思維下,把所有能拉滿的維度全部拉滿,模型注定會越來越強,出現越來越多的湧現能力。
2.2 反推中間過程
#在思考清楚極限的過程之後,就可以從極限狀態往後反推中間過程。比方說,如果我們希望成長輸入框的大小:
的方法,因為此時linear attention 可能也架不住顯存的成長。
以這種方式,我們可以反推不同階段的 scaling 需要怎樣的技術。以上分析不只適用於輸入框的長度,也適用於其他因素的 scaling 的過程。 這樣的話,我們可以得到清晰的
從現階段的技術到scaling 的極限的每個中間階段的技術路線圖。
2.3 按模型演化進程產品化
2022 年,GPT-3.5 訓練完成,以dialog資料finetune 成ChatGPT 然後發布
可以看到,在中間階段的每個重要版本,模型的能力都會增強,都存在產品化的機會。
更重要的是,依照模型演化過程產品化,可以在產品化的階段適應市場。學習 OpenAI 的組織架構來推進模型演化本身,但產品化可以依照本土市場的特徵來。這種方式或許可以既學到 OpenAI 的先進經驗,也避免水土不服的問題。三、人工智慧顯著超過人類的點
######到目前為止,我們討論了要用模型演化的視角來分析模型,要用極限的思維討論模型的演化歷程。現階段馬上可以加強的點包括了輸入框的長度,更大的模型和數據,多模態數據,和模型的專業化程度。現在讓我們再把視野放得更長期些,思考在更大的時間和空間中,模型如何進一步地往極限推。我們討論:######從這些角度來說,人工智慧超過人類並不是一件難以想像的事。這就引發了下一個問題:如何駕馭遠超人類的強人工智慧?
這個問題,是 Alignment 這項技術真正想要解決的問題。
四、Alignment 對齊當前階段,模型的能力,除了AlphaGo 在圍棋上超過了最強人類之外,其他方面的AI 並沒有超過最強的人類(但ChatGPT 在文科上或許已經超過了95% 的人類,而且它還在持續成長)。在模型還沒超過人類的時候,Alignment 的任務是讓模型符合人類的價值觀和期望;但當模型繼續演化到超過人類之後,Alignment 的任務就變成了尋找駕馭遠超人類的智能體的方法。
4.1 Alignment 作為駕馭遠超人類的智能體的方法
一個顯然的問題是,當AI 超過人類之後,還可以透過人類回饋讓ta 更強/ 更受約束嗎?是不是這個時候就已經管不了了?
不一定,即使模型遠超人類,我們依然可能駕馭ta,這裡的一個例子是運動員和教練之間的關係:金牌運動員在ta 的方向上已經是最強的人類了,但這並不意味著教練就不能訓練ta。相反,即使教練不如運動員,ta 依然可以透過各種回饋機制讓運動員變得更強且更有紀律。
類似地,人類和強人工智慧的關係,在 AI 發展的中後期,可能會變成運動員和教練之間的關係。這時候,人類需要的能力並不是完成一個目標,而是設定一個好的目標#,然後衡量機器是否足夠好地完成了這個目標,並給予改進意見。
這個方向的研究還非常初步,這個新學科的名字,叫做Scalable Oversight[15].
4.2 Alignment 與組織架構
在通往強人工智慧的路上,不只是需要人類與AI 對齊,人類與人類,也需要高度的對齊。從組織架構的角度,alignment 涉及:
在 2017 年,我剛剛入行 NLP 的時候,花了很大的力氣做可控生成這件事情。那時候所謂的 text style transfer 最多就是把句子情感分類改一改,把 good 改成 bad 就算完成了 transfer。 2018 年我花了大量的時間研究如何讓模型從句子結構的角度修改句子的風格,一度誤以為風格轉換是幾乎不可能完成的事情。而今 ChatGPT 做風格轉換簡直信手拈來。那些曾經看似不可能完成的任務,曾經極其困難的事情,今天大語言模型非常輕鬆地就能完成。在 2022 年一整年,我追蹤了從 GPT-3 到 GPT-3.5 的整個版本迭代[11],親眼看到它一步步地從弱到強不斷演化。這個演化速度並沒有變慢,反而正在加快。那些原先看來科幻的事情,現在已經成為現實。誰會知道未來會怎樣呢?
彼黍離離,彼稷之苗。行邁靡靡,中心搖搖。
彼黍離離,彼稷之穗。行邁靡靡,中心如醉。
——— 《詩經・黍離》
#以上是誰能做出中國版ChatGPT?怎麼做?的詳細內容。更多資訊請關注PHP中文網其他相關文章!