マスター カルパシーは、C 言語を使用してラマを作成することにもう満足していません!
彼が自分自身に課した最新の課題は、GPT-2 の基本バージョンから始めて、OpenAI の古典的な結果を再現することです。
チャレンジの成功自体は予想外ではありませんが、トレーニングを完了するのにかかる費用は 20 米ドルと 90 分だけで、損失と評価はオリジナル バージョンを上回りました。持っている!ポイント!合格!ポイント!わかった! 。
それだけでなく、彼は複製プロセスに関する完全なチュートリアルを書き、予想通り、再び人気が出ました。
Karpathy は A100 クラウド サービスをレンタルしたため、124M バージョンのトレーニングには 20 米ドルかかりました。
しかし、ある人がチュートリアルに従って H100 を実行したところ、トレーニング時間が短縮されただけでなく、コストも節約されました。43 分で完了し、費用は 14 米ドルのみでした。
さらに、Karpathy は自腹から 200 米ドルを費やして、3 億 5000 万バージョンの GPT-2 を全員に再生産しました。
しかし、計算によると、1.5B ラージ カップ バージョンは 1 週間で 2,500 米ドルかかります。これは、主に H100 を手に持っていないため、少し手が届きません。
幸いなことに、すべての塹壕は非常に寛大で、行動を起こすときは行動を起こします:
必要なときにいつでもあげます!
料金は 1 時間あたり 2 ドルだけです!
今回、Karpathy は依然として llama.c コードベースに基づいて GPT-2 を再現し、トレーニングをエンドツーエンドで完了しました。
コードベースは最近彼によって継続的に改善されており、トレーニングを開始するのは非常に簡単になりました:
具体的には、ネットワーク構造は GPT-2 ですが、多くのハイパーパラメータ設定は GPT-3 のセットに従います。
Karpathy 氏は、チンチラの法則の基準によれば、100B トークンでの GPT-2 トレーニングはオーバートレーニングされるべきであり、計算によれば、124M モデルには 2.5B トークンで十分であると分析しました。
ただし、彼は 10B トークンを自分でトレーニングし、トレーニング データには、間もなくリリースされたばかりの FineWeb も使用しました。トークンの品質は、元の OpenAI WebText データ セットよりも高くなっています。
オリジナルの WebText は公開されておらず、同じ条件で制御変数を実験することは不可能です。また、今日のインターネット データの分布は 5 年前のものとは大きく異なる可能性があります。
これらの違いがレビュースコアがオリジナル版よりも高い理由ではないかと推測されています。
さらに、一部のネチズンは、トレーニング中の GPU 使用効率も OpenAI よりも高いことに気づきましたが、Karpathy 氏は、これは主に単一のクラウド サービス ノードの使用によるものであり、その必要はないと述べました。サーバー間の通信の問題を考慮してください。
最後に、トレーニング済みの GPT-2 の 350M バージョンでも、オリジナル バージョンを超える結果を達成しました。
拍手~
今年2月にOpenAIを辞めて以来、KarpathyはC言語を使用して多くの大規模なモデル結果を作成し、LlamaからGPTまでC言語を使って遊んできました。
彼の GitHub ヒートマップを観察していると、最初は休憩しただけで、4 月に入ってからどんどん人気が高まってきました。
これは997をやるために辞めて家に居るというリズムでしょうか?
実際、カルパシーもこの期間に旅行し、プレイしていたゲームを共有しましたが、それほど圧倒的ではありませんでした。
彼が投稿した週間スケジュールによると、勤務中は975時間、退職後は気分に応じて4〜20時間労働。
これを見て皆さんも気になるのは、定期的な取り決めが良いのか、それとも好き勝手に動くのか?
カルパシー自身もよくわかりませんが、混沌としたスケジュールの方が間違いなく興味深いです。
最後に、彼はフリーランスの経験も共有しました:
起きたらメッセージを読まずにすぐに仕事を始め、外部情報に気を散らされないよう昼食後にオンラインにアクセスします。
条件のあるお友達は試してみてください。
チュートリアル: https://github.com/karpathy/llm.c/Discussions/481。
参考リンク:
[1]https://x.com/karpathy/status/1795484547267834137。
[2]https://www.threads.net/@karpathy。
以上がKarpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。