PHI-4：使用合成数据重新定义语言模型-人工智能-PHP中文网

AI的景观正在迅速发展，语言模型，尤其是那些专为推理和解决问题的任务而设计的模型，是这项革命的核心。 AI中的一个突破是PHI-4，这是Microsoft Research开发的140亿个参数模型。将PHI-4与前任和其他模型不同的是其创新的培训方法，尤其是其使用合成数据。通过优先考虑数据质量而不是纯数量，PHI-4表现出明显的推理功能，以STEM为中心的问题答案和编码任务。

在此博客中，我们将详细探讨PHI-4，分析其体系结构，培训过程和培训后创新的每个组成部分。我们将分解其关键优势，讨论改进领域，并解释它如何胜过许多其他语言模型，即使大小更大。到这次深度潜水结束时，您将了解为什么PHI-4不仅是另一个模型，而且还要在自然语言处理（NLP）领域的真正飞跃。

学习目标

了解为什么合成数据对于PHI-4的开发以及它如何提高长篇文本任务中的性能至关重要。
了解团队如何在三个培训阶段使用各种数据源（包括合成和非合成数据）训练PHI-4。
发现PHI-4的上下文长度如何在中期训练中从4K增加到16K令牌及其对性能的影响。
请参阅PHI-4如何对现实世界任务进行评估，例如回答，摘要和检索演出的生成，并比较其性能。
获取有关本地运行PHI-4的指南，涵盖技术设置，系统要求以及诸如过度拟合和数据污染之类的挑战。

本文作为数据科学博客马拉松的一部分发表。

为什么合成数据很重要？

PHI-4的核心是Microsoft Research开发的140亿个参数语言模型。该模型基于PHI家族（例如PHI-3）以前迭代的成功，但引入了几项关键创新，这些创新大大提高了其在繁重的任务上的表现。与许多其他大型语言模型（LLM）不同，这些模型主要依赖大量有机数据（例如Web内容，书籍和代码存储库），PHI-4从战略上纳入了大量的合成数据。对合成数据的重点，结合其他培训创新，使PHI-4可以在关键领域（尤其是与茎相关的问题答案和复杂的问题解决方案）实现更好的性能。

为什么合成数据是PHI-4的关键？

在AI社区中，数据是培训模型的命脉。通常，使用从网络上刮下来或从书籍和论文中策划的大量数据集对LLM进行培训。尽管这些有机数据很有用，但通常包含不一致的信息，无关的信息或缺乏结构性挑战，这会推动模型的推理能力。这是合成数据的来源。

合成数据在PHI-4中的作用

团队人为地生成合成数据以满足特定的培训目标，使其成为指导模型学习过程的高效工具。对于PHI-4，合成数据有助于构建高质量的数据集，以鼓励强大的推理和解决问题的能力。

结构化学习：与有机数据不同，有机数据通常需要模型来破译复合物，在代币之间间接关系，合成数据使PHI-4可以系统地学习。例如，在数学或编码任务中，合成数据提供了清晰的分步推理，使模型更容易遵循逻辑进度。
挑战的多样性：可以生成综合数据以涵盖广泛的主题和技能，从而确保模型遇到各种挑战。例如，PHI-4的合成数据集包括复杂的数学问题，编码挑战和科学推理任务，旨在扩展模型的认知能力。
与推理上下文的一致性：合成数据的一个关键优势是，它可以以与模型在现实世界中的相互作用期间与该模型的类型紧密相一致的格式生成。这有助于PHI-4生成上下文适当且与用户查询更加一致的响应。

PHI-4中的合成数据技术

PHI-4的合成数据不仅是随机生成的 - 它是使用高级技术组合精心制作的：

多代理提示：多个代理（模型）生成了相同问题的不同解决方案，然后将其过滤以质量和一致性。这会产生各种各样的细微示例，以挑战该模型解决问题的能力。
自我纠正工作流程：该模型最初产生答案，然后通过迭代反馈循环进行批评和完善它们。这有助于提高生成的响应中的准确性和推理。
指令逆转：对于编码任务，PHI-4使用指令逆转技术。它将现有代码片段转换为问题描述，帮助模型有效地生成解决方案。

通过优先考虑此类技术，PHI-4学会了更明智地解决问题，同时还可以减少纯粹有机数据集可能引起的偏见。

PHI-4如何受到训练？

PHI-4令人印象深刻的性能并非仅来自使用合成数据。该模型的培训课程对于其成功也至关重要。 Phi-4的创建者设计了一个复杂的培训过程，该过程结合了数据类型的平衡混合物，包括有机资源和合成数据。

用数据源进行预处理

PHI-4模型利用了一个仅解码器的变压器架构，具有140亿个参数，最初以4096代币的上下文长度运行。随后的中期训练阶段，此上下文长度随后增加到16K令牌。该体系结构与PHI-3中模型有许多相似之处，但引入了几种增强功能。值得注意的是，Phi-4采用了Tiktoken代币机，该代币仪改善了多语言支持，并且词汇大小为100,352个令牌，包括未使用的令牌。此外，PHI-4在4K上下文长度上充分关注，这与PHI-3中使用的2K滑动窗口方法背道而驰。

按照线性热身和衰减时间表，该团队使用大约10万亿代币仔细考虑了该模型。他们将峰值学习率设置为0.0003，施加了0.1的恒定重量衰减，并使用了5760的全局批次大小。它们是通过从短效率运行中插值和应力测试学习率热身阶段来微调的超参数来确保模型稳定性的。预处理后，该模型经历了一个短暂的中训练阶段，将原始4K上下文长度扩展到16K令牌。

由于预先训练的模型通常在跟随指导任务上表现不佳，因此研究人员选择不依靠0次评估，例如简单词语，这些评估需要特定格式的答案。取而代之的是，他们开发了一种定制评估方法，该方法结合了日志样式评估和各种任务的射击提示很少。例如，该团队使用了MMLU（5-SHOT），MMLU-PRO和ARCC（1-SHOT）等任务的日志评估。此外，他们使用1、3、4和8个几次示例训练了该模型，例如Triviaqa（TQA），MBPP，Math和GSM8K，帮助其遵循所需的答案格式并提取正确的解决方案。

中期培训阶段的见解

在PHI-4的中期训练阶段，上下文长度从原始的4K令牌延伸到16K令牌。在此阶段，研究人员进行了一系列消融研究，以研究不同类型的数据如何用长篇小说影响模型的性能。他们比较了自然具有较长上下文的数据源和合成数据，其中较短的序列被填充以创建更长的序列。结果表明，在对固有的长上下文的数据进行培训时，模型的性能更好。

团队通过筛选出高质量的非合成数据（例如学术论文，书籍和代码）来完善其数据集。它们分离出大于8K令牌的样品，并为16K代币或更长时间提供更大的重量。新的合成数据集的序列比4K令牌更长。最终的数据集混合物包含30％的长篇下说数据，并从预处理中召回了70％的召回令牌。为了适应上下文长度的增加，团队将旋转位置编码（绳索）基本频率设置为250K。它们将最大学习率降低了10倍，并以2500亿个令牌训练模型。

为了评估PHI-4处理长篇小说的能力，研究人员强调了各种各样的现实任务，而不是仅依靠诸如核对面的核心或统治者之类的合成基准，这些基准更简单，但对实际场景的反射较少。团队从头盔[YGH 24]评估套件中选择这些任务，并为每个类别的五个运行中的结果平均。

评估框架

评估框架包括以下任务：

回想：该模型根据给定键从随机生成的长JSON文件中检索特定值，该键使用SUBEM Metric测量。
抹布（检索效果的一代）：模型根据多个检索和洗牌的Wikipedia文档回答问题，并带有hosterquestions，hotpotqa和popqa等数据集。最终结果在所有数据集中取平均值，并通过Subem度量进行评估。
重新升级：在此任务中，该模型使用MSMARCO数据集对给定查询检索的前10个文档进行了重新升级。用NDCG@10测量性能。
ICL（在文章中学习）：此任务测试该模型在TREC COLACH，TREC FINE，BANKING77，NLU和CLINC150等数据集上执行许多镜头中的学习能力。结果在所有数据集中取平均值，并由F1分数衡量性能。
QA（问题回答）：该模型根据叙事Qav2数据集的冗长文档回答问题，并使用GPT-4O评分评估了性能。
总结（摘要）：任务涉及汇总多英文数据集中的长期法律文档，并使用GPT-4O评分评估结果。

这种全面的评估策略彻底测试了PHI-4在各种实际任务中的长期文化功能。它反映了该模型的现实世界适用性。

训练后的结果和反思

培训后旨在将验证的语言模型转换为用户可以的AI助手
安全互动。 PHI-4与一轮SFT相结合，这是我们关键令牌搜索方法和一轮DPO的一轮DPOON数据，并在全长偏好对上进行一轮DPO。该模型使用标准CHATML格式进行聊天微调。两轮对话的示例使用模板如下：

PHI-4：使用合成数据重新定义语言模型

创新的训练后技术

一旦预处理完成，PHI-4进入训练后阶段，进行进一步的微调。此阶段着重于完善模型的推理能力并提高其产出质量。培训后的几项创新有助于PHI-4令人印象深刻的表现：

受监督的微调：研究人员在验证的模型中以10 −6onavarietyofdatagener的学习率从各种领域的高质量数据中获得的学习率，包括数学，编码，推理，推理，对话，模型身份和安全性。这些语言还添加了40种语言的数据。这些添加了多种语言。
直接偏好优化：研究人员使用DPO将模型与人类偏好保持一致，并通过成对的所需和不希望的输出将模型从不必要的行为中转移出来。 DPO数据涵盖聊天格式数据，推理和负责人AI（RAI）数据，并改善数学，编码，推理，鲁棒性和安全性的模型。他们在SFT模型上进行了两轮DPO。
Pivotal令牌搜索（PTS）：一种针对PHI-4开发的新技术，PTS在响应中识别了对模型输出的整体成功产生重大影响的响应中的关键令牌。这使该模型可以专注于改进其响应中的特定，关键令牌，从而确保更高的准确性和鲁棒性。

PHI-4：使用合成数据重新定义语言模型

在关键基准上的性能

要评估PHI-4的功能，必须检查其在标准基准上的性能。 PHI-4在几个关键任务上始终优于其前身和许多较大的模型。

PHI-4：使用合成数据重新定义语言模型

茎和推理任务

PHI-4特别在以STEM为中心的问题回答（例如用于研究生级问题的GPQA）和数学竞赛（数学）。尽管比Llama-3之类的模型小，但PHI-4在这些重重的任务上取得了可比或优越的结果。这证明了该模型对合成数据的有效使用及其对结构化的逻辑问题解决的关注。

例如，尽管是一个较小的模型，但PHI-4在许多推理基准（例如GPQA和数学）上胜过其教师模型GPT-4。高质量合成数据和创新培训技术的结合使PHI-4在这些领域中超过了更大模型的能力。

编码和技术任务

在编码任务中，PHI-4还表现出色，超过了诸如GPT-4 Mini和Qwen 2.5之类的模型。无论是解决人类事件中的算法问题还是应对更复杂的编程挑战，Phi-4有效推理和应用逻辑的能力都使其成为编码领域中表现最好的人之一。

安全

PHI-4证明了防止产生有害或有偏见的内容的强大保护措施，从而确保基准测试期间的道德和负责人的AI相互作用。

PHI-4：使用合成数据重新定义语言模型

如何在本地运行PHI-4

在本地运行PHI-4，您可以直接从系统中与此高级AI模型进行交互，从而为测试或应用程序开发提供便利性和灵活性。请按照以下步骤进行设置：

安装Ollama

Ollama是一种工具，可促进与PHI-4这样的AI模型运行和交互的工具。首先在系统上安装Ollama。您可以在Ollama的官方网站上找到详细的安装说明。

在命令行中运行PHI-4

安装了Ollama后，您可以在终端或PowerShell中使用一个命令运行PHI-4模型：

 Ollama运行Vanilj/phi-4

登录后复制

该命令初始化了PHI-4模型，并允许您直接在CLI中与它进行交互。您可以立即开始聊天或提出问题。

将PHI-4与兰班链整合

对于更高级的用例，例如将PHI-4集成到工作流程或应用程序中，您可以将Langchain与Ollama一起使用。 Langchain提供了以编程方式使用语言模型的工具。

安装Langchain-Collama库：

 ％pip安装-u langchain -ollama

登录后复制

使用以下Python脚本通过Langchain运行PHI-4：

来自langchain_core.prompts导入chatprompttemplate
来自langchain_ollama.llms导入ollamallm
template =“”“问题：{问题}
答：让我们逐步思考。”“”
提示= chatprompttemplate.from_template（模板）
型号= ollamallm（model =“ vanilj/phi-4”）
链=提示|模型
print（链。

登录后复制

PHI-4：使用合成数据重新定义语言模型