社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2024-06-07 10:29:25

原創

608 人瀏覽過

大神Karpathy已經不滿足於用C語言造Llama了！

他給自己的最新挑戰：重現OpenAI經典成果，從基礎版GPT-2開始。

挑戰成功本身並不意外，但是只花費20美元、90分鐘完成訓練，Loss和評測還超越原版，就！有！點！過！分！了！。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

不僅如此，他把復現過程寫成了完整教程，果不其然再次火爆。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

由於Karpathy自己租用的是A100雲端服務，訓練124M版本花費20了美元。

不過有人照教學用H100跑了一把，不只訓練時間更短，還更省錢了：43分鐘完成，只花14美元。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

另外Karpathy還自掏腰包200美元，為大家復現了350M版本的GPT-2。

但1.5B大杯版，照計算要花1週時間和2500美元，有點玩不起了，主要他手上也沒有H100。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

還好各路卡壕非常仗義，該出手時就出手：

有需要隨時給你用！

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

只收你2美元一小時！

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

90分鐘復現GPT-2

#這次Karpathy復現GPT-2，還是基於他的llama.c程式碼庫，端到端完成訓練。

程式碼庫這些日子被他不斷完善，現在啟動訓練非常簡單：

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

#具體來說，網路結構是GPT-2，但許多超參數設定遵循了GPT-3的那一套。

Karpathy分析，依照Chinchilla定律的標準，GPT-2在100B tokens上訓練應該屬於過度訓練了，後面收益遞減，124M模型按計算2.5Btokens就夠。

不過他自己訓練了10B tokens，訓練資料也用剛發布不久FineWeb，比起OpenAI原版WebText資料集token品質更高。

原版WebText從未公開，無法在控制變數在相同條件下實驗，另外今天的網路資料分佈，也可能與5年前大不相同了。

據推測，評測分數比原版更高的原因可能就在這些差別了。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

另外有網友注意到，訓練時的GPU利用效率也比OpenAI的工作高，不過Karpathy表示主要是由於用了單一雲端服務節點，不需要考慮伺服器間通訊問題。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

最後，對於已訓練完的350M版本GPT-2，同樣取得了超越原版的成績。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

掌聲響起來～

大神也不是那麼卷

自今年二月份再次從OpenAI辭職之後，Karpathy已經用C語言搞出不少大模型成果，從Llama到GPT玩了一遍。

觀察他的GitHub熱力圖，只有剛開始休息了一段時間，進入4月以後就越來越捲了。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

這是辭職在家還要997的節奏？

其實Karpathy這段時間也旅遊過，也分享過在打的遊戲，並沒那麼卷。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

根據他曬出的一週時間表：在職時975，離職後工作4-20小時不等，看心情。

週一工作4小時，
週二工作14小時到晚上11點
週三失眠了，4點爬起來寫程式碼，到中午崩潰
週四做了20小時
週五休息
#週六12小時
週日4小時
然後出去旅遊兩週。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

大家看到這裡也比較好奇，是規律的安排感覺比較好，還是隨心所欲能有奇效呢？

Karpathy自己也不確定，不過混亂的日程安排肯定更有趣。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

最後他還分享了一條自由職業心得：

#起床後直接開始工作，不看任何消息，吃完午飯再上網，避免外界資訊分散注意力。

Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練

有條件的朋友可以試試看了。

教學：https://github.com/karpathy/llm.c/discussions/481。

參考連結：
[1]https://x.com/karpathy/status/1795484547267834137。
[2]https://www.threads.net/@karpathy。

以上是Karpathy新教學爆火，網友搶著送他H100：從頭重現GPT-2訓練的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

人工智慧 karpathy GPT-2

上一篇：七個很酷的GenAI & LLM技術性面試問題下一篇：部署基於記憶體儲存的 Elasticsearch - 一億+條數據，全文檢索 100ms 回應

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

PHP 必須會什麼才能找工作

來自於 1970-01-01 08:00:00

0

0

0

希望能在mac出工具！

來自於 1970-01-01 08:00:00

0

0

0

php工具箱能換mysql版本嗎？

來自於 1970-01-01 08:00:00

0

0

0

php程式設計師工具箱不能下載

來自於 1970-01-01 08:00:00

0

0

0

PHP工具箱和快表不能同時打開

來自於 1970-01-01 08:00:00

0

0

0

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1433395
php入門教程之一週學會PHP

4288989
JAVA 初級入門影片教學

2628983
小甲魚零基礎入門學習Python影片教學

514544
PHP 零基礎入門教學

873429

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板