Landskap AI berkembang pesat, dan model bahasa, terutamanya yang direka untuk penalaran dan tugas menyelesaikan masalah, berada di tengah-tengah revolusi ini. Salah satu kejayaan dalam AI ialah PHI-4, model parameter 14 bilion yang dibangunkan oleh Microsoft Research. Apa yang membezakan PHI-4 selain daripada pendahulunya dan model lain adalah pendekatan inovatif untuk latihan-terutamanya penggunaan data sintetik. Dengan mengutamakan kualiti data berbanding kuantiti semata-mata, PHI-4 menunjukkan peningkatan yang luar biasa dalam keupayaan penalaran, menjawab soalan yang berfokus pada STEM, dan tugas pengekodan.
Dalam blog ini, kami akan meneroka PHI-4 secara terperinci, menganalisis setiap komponen seni bina, proses latihan, dan inovasi pasca latihan. Kami akan memecahkan kekuatan utamanya, membincangkan bidang penambahbaikan, dan menerangkan bagaimana ia mengatasi banyak model bahasa lain -walaupun saiz yang lebih besar. Menjelang akhir menyelam yang mendalam ini, anda akan memahami mengapa PHI-4 bukan sekadar model lain, tetapi lonjakan sebenar ke hadapan dalam bidang pemprosesan bahasa semulajadi (NLP).
Artikel ini diterbitkan sebagai sebahagian daripada Blogathon Sains Data.
Pada terasnya, PHI-4 adalah model bahasa parameter 14 bilion yang dibangunkan oleh Microsoft Research. Model ini membina kejayaan lelaran sebelumnya dalam keluarga Phi, seperti PHI-3, tetapi memperkenalkan beberapa inovasi utama yang meningkatkan prestasinya terhadap tugas-tugas yang berat. Tidak seperti banyak model bahasa besar lain (LLM) yang bergantung terutamanya kepada sejumlah besar data organik (seperti kandungan web, buku, dan repositori kod), PHI-4 secara strategik menggabungkan sejumlah besar data sintetik dalam saluran paip latihannya. Tumpuan ini pada data sintetik, digabungkan dengan inovasi latihan lain, membolehkan PHI-4 untuk mencapai prestasi yang lebih baik dalam bidang utama-soalan yang berkaitan dengan STEM menjawab dan penyelesaian masalah yang kompleks.
Dalam komuniti AI, data adalah model latihan model latihan. Biasanya, LLM dilatih menggunakan dataset besar -besaran yang dikikis dari web atau dikendalikan dari buku dan kertas. Walaupun data organik ini berguna, ia sering mengandungi ketidakkonsistenan, maklumat yang tidak relevan, atau kekurangan cabaran berstruktur yang akan mendorong kebolehan penalaran model. Di sinilah data sintetik masuk.
Pasukan ini secara buatan menghasilkan data sintetik untuk memenuhi objektif latihan tertentu, menjadikannya alat yang sangat berkesan untuk membimbing proses pembelajaran model. Untuk PHI-4, data sintetik membantu membina dataset berkualiti tinggi yang menggalakkan penalaran yang kuat dan kebolehan menyelesaikan masalah.
Data sintetik Phi-4 bukan hanya dijana secara rawak-ia dibuat dengan teliti menggunakan gabungan teknik canggih:
Dengan mengutamakan teknik sedemikian, PHI-4 belajar untuk menyelesaikan masalah dengan lebih bijak, sementara juga mengurangkan bias yang mungkin timbul dari dataset semata-mata organik.
Prestasi yang mengagumkan Phi-4 tidak datang semata-mata dari penggunaan data sintetik. Kurikulum latihan model juga penting untuk kejayaannya. Pencipta PHI-4 merancang proses latihan yang canggih yang menggabungkan campuran jenis data yang seimbang, termasuk sumber organik dan data sintetik.
Model PHI-4 menggunakan seni bina pengubah decoder sahaja dengan 14 bilion parameter dan pada mulanya beroperasi dengan panjang konteks 4096 token. Panjang konteks ini kemudiannya meningkat kepada token 16K semasa fasa midtraining berikutnya. Senibina berkongsi banyak persamaan dengan model PHI-3-medium tetapi memperkenalkan beberapa peningkatan. Terutama, PHI-4 mengamalkan Tiktoken Tokenizer, yang meningkatkan sokongan berbilang bahasa, dan mempunyai saiz perbendaharaan kata sebanyak 100,352 token, termasuk token yang tidak digunakan. Di samping itu, PHI-4 menggunakan perhatian penuh merentasi panjang konteks 4K, pemergian dari pendekatan tetingkap gelongsor 2K yang digunakan dalam PHI-3-medium.
Pasukan itu mempretrain model menggunakan kira-kira 10 trilion token, berikutan jadual pemanasan dan kerosakan linear. Mereka menetapkan kadar pembelajaran puncak kepada 0.0003, menggunakan kerosakan berat badan yang berterusan sebanyak 0.1, dan menggunakan saiz batch global sebanyak 5760. Selepas pretraining, model itu menjalani peringkat midtraining ringkas untuk memperluaskan panjang konteks 4K asal kepada token 16K.
Oleh kerana model pra-terlatih biasanya tidak berfungsi dengan baik pada tugas-tugas yang mengikuti tugas, para penyelidik memilih untuk tidak bergantung pada penilaian 0-shot, seperti evals mudah, yang memerlukan jawapan dalam format tertentu. Sebaliknya, mereka telah membangunkan pendekatan penilaian tersuai untuk pretraining, yang menggabungkan penilaian log-kemungkinan dan beberapa tembakan yang diminta untuk pelbagai tugas. Sebagai contoh, pasukan menggunakan penilaian log-kemungkinan untuk tugas seperti MMLU (5-shot), MMLU-Pro, dan ARCC (1-shot). Di samping itu, mereka melatih model menggunakan contoh 1, 3, 4, dan 8 untuk tugas-tugas seperti Triviaqa (TQA), MBPP, Matematik, dan GSM8K, membantu ia mengikuti format jawapan yang diperlukan dan mengekstrak penyelesaian yang betul.
Dalam fasa midtraining PHI-4, panjang konteks dilanjutkan dari token 4K asal hingga token 16K. Semasa peringkat ini, para penyelidik menjalankan satu siri kajian ablasi untuk menyiasat bagaimana pelbagai jenis data memberi kesan kepada prestasi model dengan konteks yang panjang. Mereka membandingkan sumber data yang secara semulajadi mempunyai konteks yang lebih panjang dengan data sintetik, di mana urutan yang lebih pendek empuk untuk menghasilkan yang lebih lama. Keputusan menunjukkan bahawa model melakukan lebih baik apabila dilatih pada data yang sememangnya mempunyai konteks yang panjang.
Pasukan ini menyempurnakan dataset mereka dengan menapis data berkualiti tinggi, bukan sintetik seperti kertas akademik, buku, dan kod. Mereka mengasingkan sampel lebih lama daripada token 8k dan memberi lebih banyak berat kepada token 16k atau lebih lama. Dataset sintetik baru dicipta dengan urutan lebih lama daripada token 4K. Campuran dataset akhir mengandungi data konteks panjang 30% dan 70% ingat token dari pretraining. Untuk menampung panjang konteks yang meningkat, pasukan menetapkan frekuensi asas pengekodan kedudukan berputar (tali) kepada 250K. Mereka mengurangkan kadar pembelajaran maksimum dengan faktor 10 dan melatih model dengan 250 bilion token.
Untuk menilai keupayaan PHI-4 untuk mengendalikan konteks yang panjang, para penyelidik menekankan pelbagai tugas dunia nyata, dan bukannya bergantung semata-mata pada tanda aras sintetik seperti jarum-in-a-haystack atau penguasa, yang lebih mudah tetapi kurang mencerminkan senario praktikal. Pasukan memilih tugas -tugas ini dari Helmet [YGH 24] Suite Evaluasi dan purata hasilnya merentasi lima larian untuk setiap kategori.
Rangka kerja penilaian termasuk tugas -tugas berikut:
Strategi penilaian komprehensif ini secara menyeluruh menguji keupayaan konteks PHI-4 dalam pelbagai tugas praktikal. Ia mencerminkan kebolehgunaan dunia sebenar.
Latihan Pasca bertujuan untuk mengubah model bahasa pretrained menjadi pembantu AI yang dapat pengguna dapat
selamat berinteraksi dengan. PHI-4 menyelaraskan model pretrain dengan satu pusingan SFT, satu pusingan data DPoon dari kaedah carian token penting kami dan satu pusingan DPO pada pasangan keutamaan panjang penuh. Model ini menjalani pemakanan halus menggunakan format ChATML standard. Templat penggunaan contoh untuk dua pusingan perbualan adalah seperti berikut:
Setelah pretraining selesai, PHI-4 memasuki fasa pasca latihan di mana penalaan halus lagi berlaku. Tahap ini memberi tumpuan kepada penapisan kemampuan pemikiran model dan meningkatkan kualiti outputnya. Beberapa inovasi pasca latihan menyumbang kepada prestasi hebat Phi-4:
Untuk menilai keupayaan PHI-4, penting untuk mengkaji prestasinya pada tanda aras standard. PHI-4 secara konsisten mengatasi pendahulunya dan banyak model yang lebih besar di beberapa tugas kritikal.
PHI-4 bersinar terutamanya dalam soalan soalan yang berfokus pada STEM (seperti GPQA untuk soalan peringkat siswazah) dan pertandingan matematik (matematik). Walaupun lebih kecil daripada model seperti Llama-3, PHI-4 mencapai hasil yang setanding atau unggul pada tugas-tugas yang berat. Ini adalah bukti penggunaan data sintetik berkesan model dan fokusnya pada penyelesaian masalah yang tersusun.
Sebagai contoh, PHI-4 mengatasi model gurunya, GPT-4, pada banyak penanda aras penalaran seperti GPQA dan matematik, walaupun menjadi model yang lebih kecil. Penggabungan data sintetik yang berkualiti tinggi dan teknik latihan inovatif telah membolehkan PHI-4 melampaui keupayaan model yang lebih besar dalam bidang ini.
Dalam tugas pengekodan, PHI-4 juga cemerlang, mengatasi model seperti GPT-4 Mini dan QWEN 2.5. Sama ada ia menyelesaikan masalah algoritma dalam manusia atau menangani cabaran pengaturcaraan yang lebih kompleks, keupayaan PHI-4 untuk membuat alasan dan memohon logik dengan berkesan menjadikannya salah satu penghibur teratas dalam ruang pengekodan.
PHI-4 menunjukkan perlindungan yang mantap daripada menjana kandungan berbahaya atau berat sebelah, memastikan interaksi AI yang beretika dan bertanggungjawab semasa penandaarasan.
Menjalankan Phi-4 secara tempatan membolehkan anda berinteraksi dengan model AI lanjutan ini secara langsung dari sistem anda, menawarkan kemudahan dan fleksibiliti untuk ujian atau pembangunan aplikasi. Ikuti langkah -langkah di bawah untuk menetapkannya:
Ollama adalah alat yang memudahkan berjalan dan berinteraksi dengan model AI seperti PHI-4. Mulakan dengan memasang Ollama pada sistem anda. Anda boleh mencari arahan pemasangan terperinci di laman web rasmi Ollama.
Sebaik sahaja Ollama dipasang, anda boleh menjalankan model Phi-4 dengan satu arahan di terminal atau PowerShell anda:
Ollama Run Vanilj/Phi-4
Perintah ini memulakan model PHI-4 dan membolehkan anda berinteraksi dengannya secara langsung di CLI anda. Anda boleh mula berbual atau bertanya dengan segera.
Untuk kes penggunaan yang lebih maju, seperti mengintegrasikan PHI-4 ke dalam aliran kerja atau aplikasi, anda boleh menggunakan Langkhain dengan Ollama. Langchain menyediakan alat untuk bekerja dengan model bahasa secara programatik.
%Pip Install -u Langchain -ollama
dari langchain_core.prompts import chatpromptplate dari langchain_ollama.llms Import Ollamallm templat = "" "soalan: {soalan} Jawapan: Mari kita fikirkan langkah demi langkah. "" " prompt = chatPromptTemplate.from_template (templat) Model = Olamallm (Model = "Vanilj/Phi-4") rantai = prompt | model cetak (chain.invoke ({"Soalan": "Tulis puisi pada ai?"}))
Tiada model yang sempurna, dan PHI-4 mempunyai cabaran tersendiri. Overfitting adalah kebimbangan umum dalam pembangunan AI. Ia berlaku apabila model menjadi terlalu khusus untuk melatih data, mencederakan generalisasi. PHI-4 menangani ini dengan menggunakan proses dekontaminasi data. Ini memastikan tiada data ujian dimasukkan dalam latihan, mengurangkan risiko yang terlalu banyak.
Dengan menggunakan dataset segar, seperti pertandingan matematik AMC-10 dan AMC-12 November 2024, PHI-4 telah menunjukkan bahawa ia dapat menyebarkan jauh melebihi latihannya dan melaksanakan dengan baik pada tugas-tugas baru. Ini adalah penting untuk memastikan bahawa PHI-4 kekal sebagai alat yang mantap dan boleh dipercayai untuk aplikasi dunia sebenar.
PHI-4 adalah penukar permainan dalam dunia model bahasa. Gabungannya dari penjanaan data sintetik yang inovatif, teknik latihan canggih, dan penambahbaikan pasca latihan membezakannya daripada banyak model lain. PHI-4 menunjukkan bahawa dengan pendekatan yang tepat untuk latihan, kualiti dapat mengalahkan kuantiti-mencapai prestasi unggul dalam tugas-tugas penalaran, STEM Q & A, dan cabaran pengekodan, walaupun lebih kecil daripada banyak model kontemporari.
PHI-4 bukan tanpa cabarannya, terutamanya di sekitar arahan-mengikuti dan ketepatan faktual. Walau bagaimanapun, kebolehan yang luar biasa dalam penalaran logik dan penyelesaian masalah menjadikannya satu langkah penting ke hadapan di ruang AI. Apabila AI berkembang, penggunaan data sintetik Phi-4 menetapkan model untuk perkembangan masa depan di lapangan. Ia membantu menolak sempadan apa yang mungkin dengan model bahasa.
A. PHI-4 adalah model AI yang berskala besar, canggih berdasarkan seni bina pengubah decoder sahaja. PHI-4 membina model seperti Phi-3-medium dengan meningkatkan panjang konteks kepada token 16K. Ia juga memperkenalkan teknik pengolahan data yang lebih baik, termasuk Tiktoken, untuk sokongan berbilang bahasa yang lebih baik.
S2. Mengapa data sintetik penting untuk latihan phi-4?A. Data sintetik memainkan peranan penting dalam latihan phi-4, kerana ia membantu model mengendalikan tugas konteks panjang dengan lebih berkesan. Dengan menggabungkan data dunia nyata dengan urutan yang dihasilkan secara sintetik, PHI-4 secara umum lebih baik merentasi pelbagai senario. Ini meningkatkan prestasinya terhadap tugas yang memerlukan penalaran merentasi dataset yang besar.
Q3. Apakah peringkat utama proses latihan Phi-4?Latihan A. Phi-4 melibatkan tiga peringkat. Pretraining menggunakan sumber data yang pelbagai. Midtraining memperluaskan panjang konteks dari 4K hingga 16K token. Posttraining termasuk teknik penalaan halus seperti SFT, pembelajaran tetulang dengan DPO, dan pensampelan token (pts) dari peringkat pretraining.
Q4. Bagaimanakah PHI-4 melaksanakan tugas-tugas dunia sebenar?A. PHI-4 cemerlang dalam pelbagai tanda aras dunia nyata, termasuk menjawab soalan, ringkasan, dan generasi pengambilan semula. PHI-4 cemerlang dalam tugas-tugas pemikiran melalui dokumen yang panjang, dinilai menggunakan dataset yang pelbagai dari suite penilaian HELM.
Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan digunakan atas budi bicara penulis.
Atas ialah kandungan terperinci PHI-4: Menentukan semula model bahasa dengan data sintetik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!