李沐:創業一年,人間三年

WBOY
發布: 2024-08-15 16:41:32
原創
1144 人瀏覽過

給小夥伴報告 LLM 創業第一年的進展、糾結和反思。在 Amazon 待到第五年的時候就想著創業了,但被疫情耽擱了。到第 7 年半的時候,覺得太癢了,就提了離職。現在想來,如果有什麼事這輩子總要試的,就蹭早。因為真開始後會發現有太多新東西要學,總感嘆為啥沒能早點開始。名字:BosonAI 的來源創業前做了一系列用 Gluon 命名的專案。在量子物理學裡,Gluon 是把夸克綁在一起的一種玻色子,象徵這個計畫一開始是 Amazon 和 Microsoft 的聯合計畫。當時專案經理拍拍腦袋名字就出來了,但取名對程式設計師來說很困難,我們每天都在糾結各種檔案名稱和變數名稱。最後新公司乾脆就用玻色子(Boson)來命名了。希望大家能 get 到 “Boson 和費米子組成了世界” 這個梗時會心一笑。但沒料到很多人會看成 Boston。 「我來波士頓了,找個時間碰碰?」「哈?可我在灣區呀?」融資:簽字前一天領投方跑路22 年年底的時候想到兩個用大語言模型(LLM)做生產力工具的想法。碰巧遇到張一鳴,就向他請教。討論後他反問:為什麼不做 LLM 本身呢?我的下意識退縮:我們之前在 Amazon 的團隊做了好幾年這個,得上萬張卡,和 blabla 這麼一大堆困難。一鳴呵呵表示:這些都是短期困難,眼光要看長遠。我的優點是聽勸,真就去做 LLM 了。湊齊了資料、預訓練、後訓練、和架構各方向負責人的創始團隊,就去融資了。運氣不錯,很快就拿到種子投資了。但錢還不夠買卡,得去拿第二輪。這一輪領頭是一家非常大的機構,做了幾個月文件、討論條款。但在簽字前一天,領頭說不投了,直接導致了跟投的幾家退出。很感激剩下的投資方,還是做完了這一輪,拿到了做 LLM 的入場券。今天反思的話,當時蹭著資本市場熱情還在,其實可以繼續融資,說不定也跟其他友商一樣,現在十億現金在手。當時擔心融資太多,會不好退出,或是被架到天上去了。現在想來,創業就是想逆天改命,想什麼退路呢?機器:第一批吃螃蟹的人有了錢後就去買 GPU。問各個供應商,統一回覆是 H100 交貨得一年以後了。靈機一動,直接寫郵件給老黃。老黃秒回說他來看下。一個小時後超微的 CEO 就打電話過來了。多付了些錢,插了個隊,20 天後拿到機器了。很榮幸早期的吃到了螃蟹。螃蟹吃到懷疑人生,遇到了各種匪夷所思的 bug。例如GPU 供電不足導致不穩定,後來靠超微工程師修改bios 程式碼打上修補程式;例如光纖的切開角度不對,導致通訊不穩定;例如Nvidia 的建議網路佈局不是最優,我們重新做一個方案,後來Nvidia自己也採用了這個方案。至今我都不理解,我們就買了不到一千張卡,算小買家吧。但我們遇到的這些問題,難道大買家沒遇到嗎,為啥需要我們的 debug?同時我們也租了同樣多的 H100,一樣是各種 bug,GPU 每天都出問題,甚至懷疑是不是這個雲上就我們一個吃螃蟹的。後來看到 Llama 3 的技術報告說他們改用 H100 後,訓練一次模型被打斷幾百次,對字裡行間的痛苦,很是共感。如果比較自建和租卡的話,租三年成本和自建成本差不多。租卡的好處是省心。自建的好處有兩個。一是三年後如果 Nvidia 技術還遙遙領先,那麼它能控制價格使得 GPU 仍然保值?。另一個是自建的資料儲存成本低。儲存需要跟 GPU 比較近,不管是大雲還是小 GPU 雲,儲存價格都高。但一次模型訓練可以用幾 TB 空間存 checkpoint,訓練資料儲存是 10PB 起跳。如果用 AWS S3 的話,10PB 一年兩百萬。這錢用來自建的話,可以上 100PB。商業:感恩客戶,第一年收支平衡非常幸運的,我們第一年的收入和支出是平手。我們支出主要在人力和算力上,感謝 Openai 的財力和 Nvidia 的遙遙領先,這兩項支出都挺大的?。我們的收入來源是為大客戶做客製化的模型。很早就上 LLM 的公司大都是因為 CEO 非常有決策力,他們沒被高昂的算力和人力成本嚇到,果斷的去推動內部團隊配合嘗試新技術。非常感恩客戶給了我們喘氣的時間,不然這個幾個月我又是奔波在各個投資人那裡。接下來應該會有更多公司嘗試使用 LLM,不論是自己產品的升級,還是降本增效。原因是一方面技術成本在降低,另一方面產業領導者(例如我們客戶)會陸續放出基於 LLM 的產品出來,把產業捲了起來。我們也在關注 LLM 在 toC 上的落地。上一波頂流例如 c.ai 和 perplexity 還在找商業模式,但也有小十來家 LLM 原生應用程式收入還不錯。我們為一家做角色扮演的創業公司提供了模型,他們主打深度的玩家,打平了收入和支出,也是厲害的。模型能力還在進化,更多模態(語音、音樂、圖片、影片)在融合,相信接下來還會有更有想像的應用出現。整體來說行業和資本還是急躁的。今年好幾家成立一年多但融資上十億的公司選擇退出。從技術到產品就是一個很長的過程,花 2、3 年實屬正常。算上用戶的需求的湧現,可能得花更久。我們專注當下在迷霧中探路,對未來保持樂觀。技術:LLM 認知的四個階段對 LLM 的認知經歷了四個階段。第一階段是 Bert 到 GPT3,感受是新架構,大數據,這個可以搞。我們在 Amazon 的時候也是第一時間進去做了大規模的訓練和在產品上的落地。第二階段是剛創業的時候 GPT4 了放出來,大受震撼。大半原因來自科技不公開了。根據小道消息估算一次模型訓練一億,標資料成本幾千。很多投資人問我復現 GPT4 成本得多少,我說 3-4 億要把。後來他們中一家真一把投了大幾億出去。第三階段是創業的第一個半年。我們做不動 GPT4,那就想著從具體的問題出發吧。於是開始找客戶,有遊戲的、教育的、銷售的、金融的、保險的。針對具體的需求去訓練模型。一開始市面上沒有好的開源模型,我們就從頭訓練,後來很多很好的模型都出來了,降低了我們成本。然後針對業務場景設計評估方法,標數據,去看模型哪些地方不行,針對性提升。 23 年底時,驚喜發現我們的 Photon(Boson 的一種)系列模型在客戶應用上的效果都打贏 GPT4 了。客製化模型的好處是推理成本是呼叫 API 的 1/10。雖然今天 API 已經便宜很多,但我們自己技術也同樣在進步,仍然是 1/10 成本。另外,QPS,延時等都更好控制。這個階段的認知是對於具體應用,我們是可以打贏市面最好模型的。第四階段是創業的第二個半年。雖然客戶拿到了合約裡要的模型,但還不是他們理想中的東西,因為 GPT4 還遠遠不夠。年初時發現針對單一應用訓練,模型很難再次飛躍。回過頭想,如果 AGI 是達到一般人類水平,客戶要的是專業人士的水平。遊戲要專業策劃和專業演員、教育要金牌老師、銷售要金牌銷售、金融保險要高級分析師。這都是 AGI 加上業界專業能力。雖然當時我們內心對 AGI 充滿敬畏,但感覺是避不開的。年初我們設計了 Higgs(上帝粒子,Boson 的一種)系列模型。主打通用能力緊跟最好的模型,但在某個能力上突出。我們挑選的能力是角色扮演:扮演虛擬角色、扮演老師、扮演銷售、扮演分析師等等。 24 年中的時候迭代到第二代,在測試通用能力的Arena-Hard 和AlpacaEval 2.0 上,V2 跟最好的模型打得有來有回,在測試知識的MMLU-Pro 上也沒差很遠。

李沐:創業一年,人間三年

1. Higgs-V2 是基於 Llama3 base,進行了完整的 post-training。
  1. 我們無法像 Meta 那樣大量標註數據,因此 V2 比 Llama3 Instruct 更好,主要歸功於演算法創新。
  2. 隨後,我們建立了一個角色扮演評估資料集,包含基於角色和場景的扮演。
  3. 令人驚訝的是,自己的模型在自己的排行榜上排名第一。然而,模型訓練中未接觸過評估資料。
  4. 此評估資料集最初是為自用而設計的,旨在真實反映模型能力,避免過度擬合。
  5. 儘管如此,負責評估的同學還是發布了技術報告。值得注意的是,角色扮演測試樣本源自 c.ai,但其模型能力卻墊底。

    李沐:創業一年,人間三年

    第四階段認知

好的垂直模型通用能力也需較強,例如推理、指令遵循等垂直所需能力。長遠來看,通用和垂直模型都朝著 AGI 發展。垂直模型可偏科較明顯,專業突出,一般能力尚可,研發成本較低,研發方式亦有別。

第五階段認識

目前正在進行中,期待盡快分享。

願景:人類陪伴

我們追求願景為“人類陪伴的智能體”,高情商、高智商,相當於一個專業團隊。例如,它能陪伴玩耍(策劃 + 演員)、運動(鼓勵師 + 運動教練)、學習(輔導講授)。模型陪伴長久,深入了解用戶,可「真心為用戶著想」。

團隊:有挑戰的事情得靠團隊

創業後才真正體會到團隊的重要性。團隊成員如螺絲,構成整輛“車”,靈活應對各種情況,承載重任。公司成立初期團隊人數較少,成員都很重要,沒有冗餘,一人不力即可能影響整體運作。我以前選專案會選自己能主導開發的,但這也代表問題挑戰性不大。創業選擇了一個很大的問題去做,只能全靠團隊。本文雖大量使用“我”,但工作都是團隊完成的。

個人追求:名還是利?

我根據內心聲音做決定,讀博、做影片、創業皆是如此。創業需要強烈動機支撐,才能克服困難。我深層的動機來自對生命可能沒有意義的恐懼。我選擇“上進”,提升創造價值能力;選擇錄影、寫教材,創造教育價值;選擇寫工作、創業總結,創造事例價值;選擇創業,團結力量創造更大價值。

最後廣告下我司的招募資訊

(灣區和溫哥華)https://jobs.lever.co/bosonai
有做出海應用的小夥伴也請聯絡我們api@boson.ai

以上是李沐:創業一年,人間三年的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!