如何使用 ghs 运行 llama b bf-Python教程-PHP中文网

首页

后端开发

Python教程

如何使用 ghs 运行 llama b bf

Patricia Arquette

Dec 23, 2024 pm 10:18 PM

Lambda 实验室现在推出 GH200 半价优惠，以让更多人习惯 ARM 工具。这意味着您实际上可能有能力运行最大的开源模型！唯一需要注意的是，您有时必须从源代码构建一些东西。以下是我如何让 llama 405b 在 GH200s 上高精度运行。

创建实例

Llama 405b 约为 750GB，因此您需要大约 10 个 96GB GPU 来运行它。（GH200 具有相当不错的 CPU-GPU 内存交换速度——这就是 GH200 的全部意义——因此您可以使用少至 3 个。每个令牌的时间会很糟糕，但总吞吐量是可以接受的，如果您正在执行批处理。）登录 lambda 实验室并创建一堆 GH200 实例。 确保为它们提供相同的共享网络文件系统。

How to run llama b bfwith ghs

将 IP 地址保存到 ~/ips.txt。

批量 ssh 连接助手

我更喜欢直接 bash 和 ssh，而不是 kubernetes 或 slurm 等任何花哨的东西。借助一些助手即可轻松管理。

设置 NFS 缓存

我们将把 python 环境和模型权重放在 NFS 中。如果我们缓存它，加载速度会快得多。

创建conda环境

我们可以在 NFS 中使用 conda 环境，并只用头节点来控制它，而不是在每台机器上小心地执行完全相同的命令。

安装阿芙罗狄蒂依赖项

Aphrodite 是 vllm 的一个分支，启动速度更快，并且有一些额外的功能。
它将运行兼容 openai 的推理 API 和模型本身。

你需要手电筒、Triton 和闪光注意。
您可以从 pytorch.org 获取 aarch64 torch 构建（您不想自己构建它）。
另外两个你可以自己建造或者使用我做的轮子。

如果您从源代码构建，那么您可以通过在三台不同的机器上并行运行 triton、flash-attention 和 aphrodite 的 python setup.py bdist_wheel 来节省一些时间。或者您可以在同一台机器上逐一执行它们。

来自车轮的 Triton 和闪光注意

海卫一从源头

来自源头的闪光注意力

安装阿芙罗狄蒂

你可以使用我的轮子或自己建造。

轮子上的阿佛洛狄忒

阿芙罗狄蒂的来源

检查所有安装是否成功

下载权重

前往 https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct 并确保您拥有正确的权限。批准通常需要大约一个小时。从 https://huggingface.co/settings/tokens
获取令牌

奔跑骆驼 405b

我们将通过启动 ray 让服务器相互了解。

我们可以在一个终端选项卡中启动阿芙罗狄蒂：

并在第二个终端中从本地计算机运行查询：

对于文本来说速度不错，但是对于代码来说有点慢。如果您连接 2 台 8xH100 服务器，那么每秒会接近 16 个令牌，但成本是原来的三倍。

进一步阅读

理论上，您可以使用 lambda labs API https://cloud.lambdalabs.com/api/v1/docs 编写实例创建和销毁脚本
阿芙罗狄蒂文档 https://aphrodite.pygmalion.chat/
vllm 文档（api 大部分相同）https://docs.vllm.ai/en/latest/

以上是如何使用 ghs 运行 llama b bf的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1669

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

显示更多

Related knowledge

Python与C：学习曲线和易用性 Apr 19, 2025 am 12:20 AM

Python更易学且易用，C 则更强大但复杂。1.Python语法简洁，适合初学者，动态类型和自动内存管理使其易用，但可能导致运行时错误。2.C 提供低级控制和高级特性，适合高性能应用，但学习门槛高，需手动管理内存和类型安全。

Python和时间：充分利用您的学习时间 Apr 14, 2025 am 12:02 AM

要在有限的时间内最大化学习Python的效率，可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python vs.C：探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在开发效率上优于C ，但C 在执行性能上更高。1.Python的简洁语法和丰富库提高开发效率。2.C 的编译型特性和硬件控制提升执行性能。选择时需根据项目需求权衡开发速度与执行效率。

学习Python：2小时的每日学习是否足够？ Apr 18, 2025 am 12:22 AM

每天学习Python两个小时是否足够？这取决于你的目标和学习方法。1)制定清晰的学习计划，2)选择合适的学习资源和方法，3)动手实践和复习巩固，可以在这段时间内逐步掌握Python的基本知识和高级功能。

Python标准库的哪一部分是：列表或数组？ Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary，herilearRaysarenot.listsarebuilt-In，多功能，和Rused ForStoringCollections，而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

Python vs. C：了解关键差异 Apr 21, 2025 am 12:18 AM

Python和C 各有优势，选择应基于项目需求。1)Python适合快速开发和数据处理，因其简洁语法和动态类型。2)C 适用于高性能和系统编程，因其静态类型和手动内存管理。

Python：自动化，脚本和任务管理 Apr 16, 2025 am 12:14 AM

Python在自动化、脚本编写和任务管理中表现出色。1)自动化：通过标准库如os、shutil实现文件备份。2)脚本编写：使用psutil库监控系统资源。3)任务管理：利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

Web开发的Python：关键应用程序 Apr 18, 2025 am 12:20 AM

Python在Web开发中的关键应用包括使用Django和Flask框架、API开发、数据分析与可视化、机器学习与AI、以及性能优化。1.Django和Flask框架：Django适合快速开发复杂应用，Flask适用于小型或高度自定义项目。2.API开发：使用Flask或DjangoRESTFramework构建RESTfulAPI。3.数据分析与可视化：利用Python处理数据并通过Web界面展示。4.机器学习与AI：Python用于构建智能Web应用。5.性能优化：通过异步编程、缓存和代码优

See all articles

如何使用 ghs 运行 llama b bf

创建实例

批量 ssh 连接助手

设置 NFS 缓存

创建conda环境

安装阿芙罗狄蒂依赖项

来自车轮的 Triton 和闪光注意

海卫一从源头

来自源头的闪光注意力

安装阿芙罗狄蒂

轮子上的阿佛洛狄忒

阿芙罗狄蒂的来源

检查所有安装是否成功

下载权重

奔跑骆驼 405b

进一步阅读

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题