Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

WBOY
リリース: 2024-06-07 10:29:25
オリジナル
479 人が閲覧しました

マスター カルパシーは、C 言語を使用してラマを作成することにもう満足していません!

彼が自分自身に課した最新の課題は、GPT-2 の基本バージョンから始めて、OpenAI の古典的な結果を再現することです。

チャレンジの成功自体は予想外ではありませんが、トレーニングを完了するのにかかる費用は 20 米ドルと 90 分だけで、損失と評価はオリジナル バージョンを上回りました。持っている!ポイント!合格!ポイント!わかった! 。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

それだけでなく、彼は複製プロセスに関する完全なチュートリアルを書き、予想通り、再び人気が出ました。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

Karpathy は A100 クラウド サービスをレンタルしたため、124M バージョンのトレーニングには 20 米ドルかかりました。

しかし、ある人がチュートリアルに従って H100 を実行したところ、トレーニング時間が短縮されただけでなく、コストも節約されました。43 分で完了し、費用は 14 米ドルのみでした。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

さらに、Karpathy は自腹から 200 米ドルを費やして、3 億 5000 万バージョンの GPT-2 を全員に再生産しました。

しかし、計算によると、1.5B ラージ カップ バージョンは 1 週間で 2,500 米ドルかかります。これは、主に H100 を手に持っていないため、少し手が届きません。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

幸いなことに、すべての塹壕は非常に寛大で、行動を起こすときは行動を起こします:

必要なときにいつでもあげます!

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

料金は 1 時間あたり 2 ドルだけです!

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

90 分で GPT-2 を再現

今回、Karpathy は依然として llama.c コードベースに基づいて GPT-2 を再現し、トレーニングをエンドツーエンドで完了しました。

コードベースは最近彼によって継続的に改善されており、トレーニングを開始するのは非常に簡単になりました:

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

具体的には、ネットワーク構造は GPT-2 ですが、多くのハイパーパラメータ設定は GPT-3 のセットに従います。

Karpathy 氏は、チンチラの法則の基準によれば、100B トークンでの GPT-2 トレーニングはオーバートレーニングされるべきであり、計算によれば、124M モデルには 2.5B トークンで十分であると分析しました。

ただし、彼は 10B トークンを自分でトレーニングし、トレーニング データには、間もなくリリースされたばかりの FineWeb も使用しました。トークンの品質は、元の OpenAI WebText データ セットよりも高くなっています。

オリジナルの WebText は公開されておらず、同じ条件で制御変数を実験することは不可能です。また、今日のインターネット データの分布は 5 年前のものとは大きく異なる可能性があります。

これらの違いがレビュースコアがオリジナル版よりも高い理由ではないかと推測されています。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

さらに、一部のネチズンは、トレーニング中の GPU 使用効率も OpenAI よりも高いことに気づきましたが、Karpathy 氏は、これは主に単一のクラウド サービス ノードの使用によるものであり、その必要はないと述べました。サーバー間の通信の問題を考慮してください。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

最後に、トレーニング済みの GPT-2 の 350M バージョンでも、オリジナル バージョンを超える結果を達成しました。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

拍手~

偉大なマスターはそれほど愚かではありません

今年2月にOpenAIを辞めて以来、KarpathyはC言語を使用して多くの大規模なモデル結果を作成し、LlamaからGPTまでC言語を使って遊んできました。

彼の GitHub ヒートマップを観察していると、最初は休憩しただけで、4 月に入ってからどんどん人気が高まってきました。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

これは997をやるために辞めて家に居るというリズムでしょうか?

実際、カルパシーもこの期間に旅行し、プレイしていたゲームを共有しましたが、それほど圧倒的ではありませんでした。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

彼が投稿した週間スケジュールによると、勤務中は975時間、退職後は気分に応じて4〜20時間労働。

  • 月曜日は4時間働き、
  • 火曜日は午後11時まで14時間働きました
  • 水曜日は不眠症になり、午後4時に起きてコードを書き、正午に倒れました
  • 木曜日は20時間働きました
  • 休みは金曜日
  • 土曜日12時間
  • 日曜日
  • に4時間、その後2週間の旅行になります。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

これを見て皆さんも気になるのは、定期的な取り決めが良いのか、それとも好き勝手に動くのか?

カルパシー自身もよくわかりませんが、混沌としたスケジュールの方が間違いなく興味深いです。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

最後に、彼はフリーランスの経験も共有しました:

起きたらメッセージを読まずにすぐに仕事を始め、外部情報に気を散らされないよう昼食後にオンラインにアクセスします。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

条件のあるお友達は試してみてください。

チュートリアル: https://github.com/karpathy/llm.c/Discussions/481。

参考リンク:
[1]https://x.com/karpathy/status/1795484547267834137。
[2]https://www.threads.net/@karpathy。

以上がKarpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート