AI的景观正在迅速发展,语言模型,尤其是那些专为推理和解决问题的任务而设计的模型,是这项革命的核心。 AI中的一个突破是PHI-4,这是Microsoft Research开发的140亿个参数模型。将PHI-4与前任和其他模型不同的是其创新的培训方法,尤其是其使用合成数据。通过优先考虑数据质量而不是纯数量,PHI-4表现出明显的推理功能,以STEM为中心的问题答案和编码任务。
在此博客中,我们将详细探讨PHI-4,分析其体系结构,培训过程和培训后创新的每个组成部分。我们将分解其关键优势,讨论改进领域,并解释它如何胜过许多其他语言模型,即使大小更大。到这次深度潜水结束时,您将了解为什么PHI-4不仅是另一个模型,而且还要在自然语言处理(NLP)领域的真正飞跃。
本文作为数据科学博客马拉松的一部分发表。
PHI-4的核心是Microsoft Research开发的140亿个参数语言模型。该模型基于PHI家族(例如PHI-3)以前迭代的成功,但引入了几项关键创新,这些创新大大提高了其在繁重的任务上的表现。与许多其他大型语言模型(LLM)不同,这些模型主要依赖大量有机数据(例如Web内容,书籍和代码存储库),PHI-4从战略上纳入了大量的合成数据。对合成数据的重点,结合其他培训创新,使PHI-4可以在关键领域(尤其是与茎相关的问题答案和复杂的问题解决方案)实现更好的性能。
在AI社区中,数据是培训模型的命脉。通常,使用从网络上刮下来或从书籍和论文中策划的大量数据集对LLM进行培训。尽管这些有机数据很有用,但通常包含不一致的信息,无关的信息或缺乏结构性挑战,这会推动模型的推理能力。这是合成数据的来源。
团队人为地生成合成数据以满足特定的培训目标,使其成为指导模型学习过程的高效工具。对于PHI-4,合成数据有助于构建高质量的数据集,以鼓励强大的推理和解决问题的能力。
PHI-4的合成数据不仅是随机生成的 - 它是使用高级技术组合精心制作的:
通过优先考虑此类技术,PHI-4学会了更明智地解决问题,同时还可以减少纯粹有机数据集可能引起的偏见。
PHI-4令人印象深刻的性能并非仅来自使用合成数据。该模型的培训课程对于其成功也至关重要。 Phi-4的创建者设计了一个复杂的培训过程,该过程结合了数据类型的平衡混合物,包括有机资源和合成数据。
PHI-4模型利用了一个仅解码器的变压器架构,具有140亿个参数,最初以4096代币的上下文长度运行。随后的中期训练阶段,此上下文长度随后增加到16K令牌。该体系结构与PHI-3中模型有许多相似之处,但引入了几种增强功能。值得注意的是,Phi-4采用了Tiktoken代币机,该代币仪改善了多语言支持,并且词汇大小为100,352个令牌,包括未使用的令牌。此外,PHI-4在4K上下文长度上充分关注,这与PHI-3中使用的2K滑动窗口方法背道而驰。
按照线性热身和衰减时间表,该团队使用大约10万亿代币仔细考虑了该模型。他们将峰值学习率设置为0.0003,施加了0.1的恒定重量衰减,并使用了5760的全局批次大小。它们是通过从短效率运行中插值和应力测试学习率热身阶段来微调的超参数来确保模型稳定性的。预处理后,该模型经历了一个短暂的中训练阶段,将原始4K上下文长度扩展到16K令牌。
由于预先训练的模型通常在跟随指导任务上表现不佳,因此研究人员选择不依靠0次评估,例如简单词语,这些评估需要特定格式的答案。取而代之的是,他们开发了一种定制评估方法,该方法结合了日志样式评估和各种任务的射击提示很少。例如,该团队使用了MMLU(5-SHOT),MMLU-PRO和ARCC(1-SHOT)等任务的日志评估。此外,他们使用1、3、4和8个几次示例训练了该模型,例如Triviaqa(TQA),MBPP,Math和GSM8K,帮助其遵循所需的答案格式并提取正确的解决方案。
在PHI-4的中期训练阶段,上下文长度从原始的4K令牌延伸到16K令牌。在此阶段,研究人员进行了一系列消融研究,以研究不同类型的数据如何用长篇小说影响模型的性能。他们比较了自然具有较长上下文的数据源和合成数据,其中较短的序列被填充以创建更长的序列。结果表明,在对固有的长上下文的数据进行培训时,模型的性能更好。
团队通过筛选出高质量的非合成数据(例如学术论文,书籍和代码)来完善其数据集。它们分离出大于8K令牌的样品,并为16K代币或更长时间提供更大的重量。新的合成数据集的序列比4K令牌更长。最终的数据集混合物包含30%的长篇下说数据,并从预处理中召回了70%的召回令牌。为了适应上下文长度的增加,团队将旋转位置编码(绳索)基本频率设置为250K。它们将最大学习率降低了10倍,并以2500亿个令牌训练模型。
为了评估PHI-4处理长篇小说的能力,研究人员强调了各种各样的现实任务,而不是仅依靠诸如核对面的核心或统治者之类的合成基准,这些基准更简单,但对实际场景的反射较少。团队从头盔[YGH 24]评估套件中选择这些任务,并为每个类别的五个运行中的结果平均。
评估框架包括以下任务:
这种全面的评估策略彻底测试了PHI-4在各种实际任务中的长期文化功能。它反映了该模型的现实世界适用性。
培训后旨在将验证的语言模型转换为用户可以的AI助手
安全互动。 PHI-4与一轮SFT相结合,这是我们关键令牌搜索方法和一轮DPO的一轮DPOON数据,并在全长偏好对上进行一轮DPO。该模型使用标准CHATML格式进行聊天微调。两轮对话的示例使用模板如下:
一旦预处理完成,PHI-4进入训练后阶段,进行进一步的微调。此阶段着重于完善模型的推理能力并提高其产出质量。培训后的几项创新有助于PHI-4令人印象深刻的表现:
要评估PHI-4的功能,必须检查其在标准基准上的性能。 PHI-4在几个关键任务上始终优于其前身和许多较大的模型。
PHI-4特别在以STEM为中心的问题回答(例如用于研究生级问题的GPQA)和数学竞赛(数学)。尽管比Llama-3之类的模型小,但PHI-4在这些重重的任务上取得了可比或优越的结果。这证明了该模型对合成数据的有效使用及其对结构化的逻辑问题解决的关注。
例如,尽管是一个较小的模型,但PHI-4在许多推理基准(例如GPQA和数学)上胜过其教师模型GPT-4。高质量合成数据和创新培训技术的结合使PHI-4在这些领域中超过了更大模型的能力。
在编码任务中,PHI-4还表现出色,超过了诸如GPT-4 Mini和Qwen 2.5之类的模型。无论是解决人类事件中的算法问题还是应对更复杂的编程挑战,Phi-4有效推理和应用逻辑的能力都使其成为编码领域中表现最好的人之一。
PHI-4证明了防止产生有害或有偏见的内容的强大保护措施,从而确保基准测试期间的道德和负责人的AI相互作用。
在本地运行PHI-4,您可以直接从系统中与此高级AI模型进行交互,从而为测试或应用程序开发提供便利性和灵活性。请按照以下步骤进行设置:
Ollama是一种工具,可促进与PHI-4这样的AI模型运行和交互的工具。首先在系统上安装Ollama。您可以在Ollama的官方网站上找到详细的安装说明。
安装了Ollama后,您可以在终端或PowerShell中使用一个命令运行PHI-4模型:
Ollama运行Vanilj/phi-4
该命令初始化了PHI-4模型,并允许您直接在CLI中与它进行交互。您可以立即开始聊天或提出问题。
对于更高级的用例,例如将PHI-4集成到工作流程或应用程序中,您可以将Langchain与Ollama一起使用。 Langchain提供了以编程方式使用语言模型的工具。
%pip安装-u langchain -ollama
来自langchain_core.prompts导入chatprompttemplate 来自langchain_ollama.llms导入ollamallm template =“”“问题:{问题} 答:让我们逐步思考。”“” 提示= chatprompttemplate.from_template(模板) 型号= ollamallm(model =“ vanilj/phi-4”) 链=提示|模型 print(链。
没有模型是完美的,PHI-4有自己的挑战。过度拟合是人工智能发展中的一个普遍关注点。当模型变得太专业而无法训练数据并损害概括时,就会发生这种情况。 PHI-4通过使用数据净化过程来解决此问题。这样可以确保在培训中不包含测试数据,从而降低了过度拟合的风险。
通过使用新鲜的数据集,例如2024年11月AMC-10和AMC-12数学竞赛,PHI-4表明,它可以概括其超出其培训设置并在新任务上表现出色。这对于确保PHI-4仍然是现实世界应用的强大而可靠的工具至关重要。
PHI-4是语言模型世界中的游戏规则改变者。它的创新合成数据生成,尖端训练技术和培训后的改进将其与许多其他模型区分开来。 PHI-4证明,通过正确的训练方法,质量可以胜过数量 - 尽管比许多当代模型要小,但在重度任务,STEM Q&A和编码挑战方面取得了卓越的表现。
PHI-4并非没有挑战,尤其是在跟随教学和事实准确性周围。但是,它在逻辑推理和解决问题的能力方面的出色能力使其在AI领域迈出了重要的一步。随着AI的发展,PHI-4对合成数据的使用设置了该领域未来发展的模型。它有助于推动语言模型可能的界限。
A. PHI-4是一种基于仅解码器变压器体系结构的大规模,最先进的AI模型。 PHI-4通过将上下文长度增加到16k代币之类的模型构建。它还引入了改进的数据预处理技术,包括Tiktoken,以提供更好的多语言支持。
Q2。为什么合成数据对于培训PHI-4很重要?答:综合数据在训练PHI-4中起关键作用,因为它可以帮助模型更有效地处理长篇小说任务。通过将现实世界数据与合成生成的序列相结合,PHI-4可以在各种情况下更好地概括。这提高了其在需要大型数据集中推理的任务上的性能。
Q3。 PHI-4培训过程的关键阶段是什么?A. PHI-4的培训涉及三个阶段。预处理使用多种数据源。中期培训将上下文长度从4K将其扩展到16K令牌。训练后包括从训练阶段的微调技术,诸如SFT,使用DPO的加固学习以及令牌采样(PTS)。
Q4。 PHI-4如何在现实世界任务上执行?A. PHI-4在各种现实世界的基准上都擅长,包括问答,摘要和检索效果的一代。 PHI-4在推理任务上超过了冗长的文档,并使用Helm评估套件中的不同数据集进行了评估。
本文所示的媒体不由Analytics Vidhya拥有,并由作者酌情使用。
以上是PHI-4:使用合成数据重新定义语言模型的详细内容。更多信息请关注PHP中文网其他相关文章!