速揽2500星，Andrej Karpathy重写了一份minGPT库-人工智能-PHP中文网

首页

科技周边

人工智能

速揽2500星，Andrej Karpathy重写了一份minGPT库

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 02:01 PM

训练库

作为人工智能领域「暴力美学」的代表作，GPT 可谓是出尽风头，从诞生之初的 GPT 1.17 亿参数，一路狂飙到 GPT-3 1750 亿参数。随着 GPT-3 的发布，OpenAI 向社区开放了商业 API，鼓励大家使用 GPT-3 尝试更多的实验。然而，API 的使用需要申请，而且你的申请很有可能石沉大海。

为了让资源有限的研究者也能体验一把玩大模型的乐趣，前特斯拉 AI 负责人 Andrej Karpathy 基于 PyTorch，仅用 300 行左右的代码就写出了一个小型 GPT 训练库，并将其命名为 minGPT。这个 minGPT 能够进行加法运算和字符级的语言建模，而且准确率还不错。

时隔两年，minGPT 迎来更新，Karpathy 又上线新版本，并命名为 NanoGPT，该库用于训练和微调中型大小的 GPT。上线短短几天，狂揽 2.5K 星。

项目地址：https://github.com/karpathy/nanoGPT

在项目介绍中，Karpathy 这样写道：「NanoGPT 是用于训练和微调中型尺度 GPT 最简单、最快的库。是对 minGPT 的重写，因为 minGPT 太复杂了，以至于我都不愿意在使用它。NanoGPT 还在开发当中，当前致力于在 OpenWebText 数据集上重现 GPT-2。

NanoGPT 代码设计目标是简单易读，其中 train.py 是一个约 300 行的代码；model.py 是一个约 300 行的 GPT 模型定义，它可以选择从 OpenAI 加载 GPT-2 权重。」

为了呈现数据集，用户首先需要将一些文档 tokenize 为一个简单的 1D 索引数组。

$ cd data/openwebtext
$ python prepare.py

登录后复制

这将生成两个文件：train.bin 和 val.bin，每个文件都包含一个代表 GPT-2 BPE token id 的 uint16 字节原始序列。该训练脚本试图复制 OpenAI 提供的最小的 GPT-2 版本，即 124M 版本。

$ python train.py

登录后复制

假如你想使用 PyTorch 分布式数据并行（DDP）进行训练，请使用 torchrun 运行脚本。

$ torchrun --standalone --nproc_per_node=4 train.py

登录后复制

为了让代码更有效，用户也可以从模型中进行取样：

$ python sample.py

登录后复制

Karpathy 表示，该项目目前在 1 个 A100 40GB GPU 上一晚上的训练损失约为 3.74，在 4 个 GPU 上训练损失约为 3.60。在 8 x A100 40GB node 上进行 400,000 次迭代（约 1 天）atm 的训练降至 3.1。

至于如何在新文本上微调 GPT，用户可以访问 data/shakespeare 并查看 prepare.py。与 OpenWebText 不同，这将在几秒钟内运行。微调只需要很少的时间，例如在单个 GPU 上只需要几分钟。下面是运行微调的一个例子

$ python train.py config/finetune_shakespeare.py

登录后复制

项目一上线，已经有人开始尝试了：

想要尝试的小伙伴，可以参考原项目运行。

以上是速揽2500星，Andrej Karpathy重写了一份minGPT库的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7555

CakePHP 教程

1382

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

我尝试了使用光标AI编码的Vibe编码，这太神奇了！ Mar 20, 2025 pm 03:34 PM

Vibe编码通过让我们使用自然语言而不是无尽的代码行创建应用程序来重塑软件开发的世界。受Andrej Karpathy等有远见的人的启发，这种创新的方法使Dev

2025年2月的Genai推出前5名：GPT-4.5，Grok-3等！ Mar 22, 2025 am 10:58 AM

2025年2月，Generative AI又是一个改变游戏规则的月份，为我们带来了一些最令人期待的模型升级和开创性的新功能。从Xai的Grok 3和Anthropic的Claude 3.7十四行诗到Openai的G

如何使用Yolo V12进行对象检测？ Mar 22, 2025 am 11:07 AM

Yolo（您只看一次）一直是领先的实时对象检测框架，每次迭代都在以前的版本上改善。最新版本Yolo V12引入了进步，可显着提高准确性

最佳AI艺术生成器（免费付款）创意项目 Apr 02, 2025 pm 06:10 PM

本文回顾了AI最高的艺术生成器，讨论了他们的功能，对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值，并建议使用Dall-E 2进行高质量的可定制艺术。

Chatgpt 4 o可用吗？ Mar 28, 2025 pm 05:29 PM

Chatgpt 4当前可用并广泛使用，与诸如ChatGpt 3.5（例如ChatGpt 3.5）相比，在理解上下文和产生连贯的响应方面取得了重大改进。未来的发展可能包括更多个性化的间

哪个AI比Chatgpt更好？ Mar 18, 2025 pm 06:05 PM

本文讨论了AI模型超过Chatgpt，例如Lamda，Llama和Grok，突出了它们在准确性，理解和行业影响方面的优势。（159个字符）

如何将Mistral OCR用于下一个抹布模型 Mar 21, 2025 am 11:11 AM

MISTRAL OCR：通过多模式文档理解彻底改变检索效果检索增强的生成（RAG）系统具有明显高级的AI功能，从而可以访问大量的数据存储，以获得更明智的响应

顶级AI写作助理来增强您的内容创建 Apr 02, 2025 pm 06:11 PM

文章讨论了Grammarly，Jasper，Copy.ai，Writesonic和Rytr等AI最高的写作助手，重点介绍了其独特的内容创建功能。它认为Jasper在SEO优化方面表现出色，而AI工具有助于保持音调的组成

See all articles

速揽2500星，Andrej Karpathy重写了一份minGPT库

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题