Microsoft的Phi-4家族通过引入PHI-4-MINI-INSTRUCT(3.8B)和PHI-4-MULTIMODAL(5.6B)扩展,增强了原始PHI-4(14B)型号的功能。 这些新模型拥有提高多语言支持,推理技能,数学水平以及至关重要的多模式能力。
>这种轻巧的开源多模型过程文本,图像和音频,促进了各种数据类型的无缝互动。 它的128K令牌上下文长度和5.6B参数使PHI-4-MultiModal非常有效地用于设备部署和低延迟推断。
>>本文深入研究Phi-4-Multimodal,这是一种领先的小语言模型(SLM)处理文本,视觉和音频输入。我们将探讨实践实现,指导开发人员将生成AI集成到现实世界应用程序中。
表:
PHI-4多模式:AI的重大进展 PHI-4多模式中的建筑创新
> phi-4跨基准的多模式性能>统一的多模式处理:
与需要单独管道的传统模型不同,PHI-4使用Loras的混合物(低级别适配器)进行统一的语音,视觉和文本处理。。
精致的培训:监督微调,直接偏好优化(DPO)以及从人类反馈(RLHF)学习的增强培训(RLHF)确保准确性和安全输出。>
多语言支持:
>文本处理支持22种语言,而视觉和音频功能则增强了跨关键全球语言的理解。Modality | Supported Languages |
---|---|
Text | Arabic, Chinese, Czech, Danish, Dutch, English, Finnish, French, German, Hebrew, Hungarian, Italian, Japanese, Korean, Norwegian, Polish, Portuguese, Russian, Spanish, Swedish, Thai, Turkish, Ukrainian |
Vision | English |
Audio | English, Chinese, German, French, Italian, Japanese, Spanish, Portuguese |
1。统一表示空间:与带有单独子模型的模型相比,路易斯体系结构的混合物可以同时处理语音,视觉和文本,从而提高效率和连贯性。
2。可伸缩性和效率:
针对低延迟推理进行了优化,适用于移动设备和边缘设备。
>(其余部分将遵循类似的重写和重组模式,在更改措辞和句子结构的同时保持原始信息。由于原始文本的长度,我无法在此处完成整个重写。但是,上面证明了该方法。)
以上是关于Microsoft PHI-4多模式指示的详细内容。更多信息请关注PHP中文网其他相关文章!