如何将模型转换为GGUF格式？-人工智能-PHP中文网

 ＃导入必要的库
导入火炬
导入Torch.nn作为nn
导入火炬。

＃步骤1：在Pytorch中定义一个简单的神经网络模型
类SimpleModel（nn.Module）：
    def __init __（自我）：
        超级（SimpleModel，self）.__ Init __（）
        self.fc1 = nn.linear（10，50）＃第一个完全连接的层
        self.fc2 = nn.linear（50，20）＃第二完全连接层
        self.fc3 = nn.linear（20，5）＃输出层

    def向前（self，x）：
        x = torch.relu（self.fc1（x））＃在第一层之后激活
        x = torch.relu（self.fc2（x））＃第二层之后的relu激活
        x = self.fc3（x）＃输出层
        返回x

＃步骤2：初始化模型并切换到评估模式
model = SimpleModel（）
model.eval（）

＃在量化之前保存模型以供参考
TORCH.SAVE（模型，“ Simple_model.pth”）

＃步骤3：将动态量化应用于模型
＃在这里，我们仅量化线性层，将其重量更改为int8
量化_model = pont.quantize_dynamic（
    型号，{nn.linear}，dtype = therch.qint8
）

＃保存量化的模型
TORCH.SAVE（Quantized_Model，“量化_simple_model.pth”）

＃用虚拟数据量化模型的示例用法
dummy_input = torch.randn（1，10）＃带有10个功能的示例输入张量
输出=量化_model（dummy_input）
打印（“量化模型输出：”，输出）

登录后复制

如何将模型转换为GGUF格式？

检查原始模型和量化模型的大小

在使用大型语言模型时，了解原始版本和量化版本之间的尺寸差异至关重要。这种比较不仅强调了模型压缩的好处，而且还为部署策略提供了有效资源使用的信息。

导入操作系统

＃保存模型的路径
Original_model_path =“ simple_model.pth”
量化_model_path =“量化_simple_model.pth”

＃功能以获取KB中的文件大小
def get_file_size（路径）：
    size_bytes = os.path.getSize（路径）
    size_kb = size_bytes / 1024＃转换为kb
    返回size_kb

＃检查原始模型和量化模型的尺寸
Original_size = get_file_size（oinartion_model_path）
量化= get_file_size（量化_model_path）

打印（f“原始型号大小：{oilter_size：.2f} kb”）
打印（f“量化的型号大小：{量化_size：.2f} kb”）
print（f“尺寸减小：{（（（原始_size -jentalized_size） / oinartion_size） * 100：.2f}％”）

登录后复制

如何将模型转换为GGUF格式？

但是，即使是8位精度也不足以用于GPT-3或Llama等极大的语言模型，后者刺激了GGML和GGGUF等新格式的开发。

什么是GGUF？

GGUF或通用GPT统一格式是为GGML的扩展而开发的，以支持更大的模型。这是用于存储用于使用GGML推理和基于GGML的执行者的模型的文件格式。 GGUF是一种二进制格式，旨在快速加载和节省模型，并易于阅读。传统上是使用Pytorch或其他框架开发的模型，然后转换为GGUF以用于GGML。

GGUF是GGML，GGMF和GGJT的连续文件格式，并且通过包含加载模型所需的所有信息而设计为明确的。它也被设计为可扩展的，因此可以将新信息添加到模型中而不会破坏兼容性。它的设计有三个目标：

效率：使大型型号能够在CPU和消费级硬件上有效运行。
可伸缩性：支持非常大的型号，通常是100GB或更多。
灵活性：允许开发人员在不同的量化水平，平衡模型大小和准确性之间进行选择。

为什么要使用GGUF？

GGUF格式为需要在有限的硬件上部署大型，资源丰富的模型的开发人员而不会牺牲性能。以下是一些核心优势：

量化支持： GGUF支持一系列量化水平（4位，8位），可以在保持模型精度的同时节省大量内存。
元数据存储： GGUF可以存储详细的元数据，例如模型架构，令牌化方案和量化水平。此元数据使加载和配置模型变得更加容易。
推理优化： GGUF优化了内存使用，从而可以更快地推断基于CPU的系统。

GGUF格式结构和命名约定

GGUF格式采用特定的命名惯例来浏览一下关键的模型信息。该约定可以帮助用户确定重要的模型特征，例如体系结构，参数大小，微调类型，版本，编码类型和碎片数据 - 制造模型管理和部署更容易。

GGUF命名约定遵循以下结构：

如何将模型转换为GGUF格式？

名称中的每个组件都提供了对模型的见解：

Basename：模型基本类型或体系结构的描述性名称，源自元数据（例如Llama或Mixtral）。
Sizelabel：使用X格式IE 指示模型大小：专家数量（例如8），：模型参数刻度，例如Q的Q Quadrillions，t，数万亿美元，数十亿美元，数十亿美元，m for Million，k对于千参数。
Finetune：模型微调目标，例如“聊天”或“指示”。
版本： V 。格式中的模型版本号，如果未指定，则默认为v1.0。
编码：重量编码方案，每个项目可自定义。

类型：指示GGGUF文件类型，例如适配器的LORA或用于词汇数据的词汇。
碎片：表示一个模型分为部分，格式为 -of- 。

命名示例

如何将模型转换为GGUF格式？

设置转换为GGUF格式

在进行转换之前，请确保您有以下先决条件：

系统上安装了Python 3.8。
模型源文件：通常是Pytorch或Tensorflow模型（例如，Llama，Falcon）或来自拥抱面的模型。
GGUF转换工具：这些工具通常基于GGML库或特定的模型转换脚本。

一些值得注意的量化技术

量化技术通过降低其大小和计算要求在优化神经网络中起关键作用。通过将高精度权重和激活转换为较低的位表示，这些方法可以有效地部署模型，而不会显着损害性能。

如何将模型转换为GGUF格式？

将模型转换为GGUF

以下是您可以将模型转换为GGGUF格式的方式。

步骤1：选择要量化的模型

在这种情况下，我们正在选择Google的Flan-T5模型来量化。您可以按照命令直接从huggingface下载该命令

！PIP安装拥抱面板

从huggingface_hub导入snapshot_download

model_＃替换为要下载的模型的ID
snapshot_download（repo_id = model_id，local_dir =“ t5”）

登录后复制

步骤2：克隆Llama.cpp存储库

我们正在使用Llama.cpp将模型量化为GGUF格式

！git克隆https://github.com/ggerganov/llama.cpp

登录后复制

步骤3：安装所需的依赖项

如果在Google协作中，请按以下代码进行操作，否则您可以导航到要求目录以安装“ unigess-convert_hf_to_gguf.txt”

！

登录后复制

步骤4：选择量化级别

量化水平决定了模型大小和准确性之间的权衡。较低位量化（如4位）可节省内存，但可能会降低准确性。例如，如果您针对仅CPU的部署，并且不需要最高的精度，那么INT4可能是一个不错的选择。在这里，我们选择“ Q8_0”。

步骤5：运行转换脚本

如果在Google合作中，请运行以下脚本，否则请按照注释。

 ＃！python {通往convert_hf_to_gguf.py的路径} {路径hf_model}  -  outfile {name_of_of_outputfile.gguf}  -  outtype {量化类型}

！

登录后复制

通往HF_MODEL的路径：模型目录的路径。
name_of_outputfile.gguf：将保存GGGUF模型的输出文件的名称。如果将量化的模型推回拥抱的脸部，请使用GGUF命名约定。
量化类型：指定量化类型（在这种情况下，量化8位整数）。

比较原始模型的大小

当部署机器学习模型时，了解原始版本和量化版本之间的尺寸差异至关重要。该比较强调了量化如何显着降低模型大小，从而提高了效率和更快的推理时间，而不会大大损失准确性。

 ＃检查原始模型和量化模型的尺寸
Original_model_path =“/content/t5/model.safetensors”
量化_model_path =“ t5.gguf”
Original_size = get_file_size（oinartion_model_path）
量化= get_file_size（量化_model_path）

打印（f“原始型号大小：{oilter_size：.2f} kb”）
打印（f“量化的型号大小：{量化_size：.2f} kb”）
print（f“尺寸减小：{（（（原始_size -jentalized_size） / oinartion_size） * 100：.2f}％”）

登录后复制

如何将模型转换为GGUF格式？