大神Karpathy已經不滿足於用C語言造Llama了!
他給自己的最新挑戰:重現OpenAI經典成果,從基礎版GPT-2開始。
挑戰成功本身並不意外,但是只花費20美元、90分鐘完成訓練,Loss和評測還超越原版,就!有!點!過!分!了! 。
不僅如此,他把復現過程寫成了完整教程,果不其然再次火爆。
由於Karpathy自己租用的是A100雲端服務,訓練124M版本花費20了美元。
不過有人照教學用H100跑了一把,不只訓練時間更短,還更省錢了:43分鐘完成,只花14美元。
另外Karpathy還自掏腰包200美元,為大家復現了350M版本的GPT-2。
但1.5B大杯版,照計算要花1週時間和2500美元,有點玩不起了,主要他手上也沒有H100。
還好各路卡壕非常仗義,該出手時就出手:
有需要隨時給你用!
只收你2美元一小時!
#這次Karpathy復現GPT-2,還是基於他的llama.c程式碼庫,端到端完成訓練。
程式碼庫這些日子被他不斷完善,現在啟動訓練非常簡單:
#具體來說,網路結構是GPT-2,但許多超參數設定遵循了GPT-3的那一套。
Karpathy分析,依照Chinchilla定律的標準,GPT-2在100B tokens上訓練應該屬於過度訓練了,後面收益遞減,124M模型按計算2.5Btokens就夠。
不過他自己訓練了10B tokens,訓練資料也用剛發布不久FineWeb,比起OpenAI原版WebText資料集token品質更高。
原版WebText從未公開,無法在控制變數在相同條件下實驗,另外今天的網路資料分佈,也可能與5年前大不相同了。
據推測,評測分數比原版更高的原因可能就在這些差別了。
另外有網友注意到,訓練時的GPU利用效率也比OpenAI的工作高,不過Karpathy表示主要是由於用了單一雲端服務節點,不需要考慮伺服器間通訊問題。
最後,對於已訓練完的350M版本GPT-2,同樣取得了超越原版的成績。
掌聲響起來~
自今年二月份再次從OpenAI辭職之後,Karpathy已經用C語言搞出不少大模型成果,從Llama到GPT玩了一遍。
觀察他的GitHub熱力圖,只有剛開始休息了一段時間,進入4月以後就越來越捲了。
這是辭職在家還要997的節奏?
其實Karpathy這段時間也旅遊過,也分享過在打的遊戲,並沒那麼卷。
根據他曬出的一週時間表:在職時975,離職後工作4-20小時不等,看心情。
大家看到這裡也比較好奇,是規律的安排感覺比較好,還是隨心所欲能有奇效呢?
Karpathy自己也不確定,不過混亂的日程安排肯定更有趣。
最後他還分享了一條自由職業心得:
#起床後直接開始工作,不看任何消息,吃完午飯再上網,避免外界資訊分散注意力。
有條件的朋友可以試試看了。
教學:https://github.com/karpathy/llm.c/discussions/481。
參考連結:
[1]https://x.com/karpathy/status/1795484547267834137。
[2]https://www.threads.net/@karpathy。
以上是Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練的詳細內容。更多資訊請關注PHP中文網其他相關文章!