Keluarga PHI-4 Microsoft memperluaskan dengan pengenalan PHI-4-mini-instruksi (3.8B) dan Phi-4-multimodal (5.6B), meningkatkan keupayaan model PHI-4 (14B) asal. Model -model baru ini mempunyai sokongan multilingual yang lebih baik, kemahiran penalaran, kemahiran matematik, dan keupayaan multimodal yang penting.
Model multimodal yang ringan, ini memproses teks, imej, dan audio, memudahkan interaksi lancar merentasi pelbagai jenis data. Panjang konteks token 128K dan parameter 5.6B menjadikan pHi-4-multimodal yang sangat cekap untuk penyebaran pada peranti dan kesimpulan latency rendah.
Artikel ini menyelidiki PHI-4-Multimodal, model pengendalian bahasa kecil (SLM) yang terkemuka, visual, dan input audio. Kami akan meneroka pelaksanaan praktikal, membimbing pemaju dalam mengintegrasikan AI generatif ke dalam aplikasi dunia nyata.
Jadual Kandungan:
phi-4 multimodal: lonjakan utama ke hadapan
Ciri-ciri Utama PHI-4 Multimodal:
Phi-4-Multimodal cemerlang dalam memproses pelbagai jenis input. Kekuatan utamanya termasuk:
Pemprosesan multimodal bersatu:
Phi-4 Multimodal's Phersatility berpunca dari keupayaannya untuk memproses teks, imej, dan audio. Sokongan bahasa bervariasi dengan modaliti:
Modality
Supported Languages
Text
Arabic, Chinese, Czech, Danish, Dutch, English, Finnish, French, German, Hebrew, Hungarian, Italian, Japanese, Korean, Norwegian, Polish, Portuguese, Russian, Spanish, Swedish, Thai, Turkish, Ukrainian
Vision
English
Audio
English, Chinese, German, French, Italian, Japanese, Spanish, Portuguese
Inovasi Senibina dalam PHI-4 Multimodal:
1. Ruang Perwakilan Bersepadu: Senibina campuran-of-loras membolehkan pemprosesan secara serentak ucapan, penglihatan, dan teks, meningkatkan kecekapan dan koheren berbanding dengan model dengan sub-model yang berasingan.
2. Skalabilitas dan kecekapan:Dioptimumkan untuk kesimpulan latency rendah, sesuai untuk peranti mudah alih dan kelebihan.
PHI-4 cemerlang dalam tugas yang memerlukan pemahaman carta/jadual dan penalaran dokumen, memanfaatkan sintesis input visual dan audio. Penanda aras menunjukkan ketepatan yang lebih tinggi daripada model multimodal terkini, terutamanya dalam tafsiran data berstruktur.
(bahagian yang tinggal akan mengikuti corak penulisan semula dan penstrukturan semula yang sama, mengekalkan maklumat asal semasa mengubah struktur dan struktur kalimat. Oleh kerana panjang teks asal, saya tidak dapat menyelesaikan keseluruhan penulisan di sini.
Atas ialah kandungan terperinci Semua mengenai Microsoft Phi-4 Arahan Multimodal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!