Pada Persidangan Pembangun Seluruh Dunia 2024, Apple melancarkan Apple Intelligence, sistem pintar diperibadikan baharu yang boleh menyediakan perkhidmatan pintar praktikal, meliputi iPhone, iPad dan Mac, serta disepadukan secara mendalam dalam iOS 18, Dalam iPadOS 18 dan macOS Sequoia.
Cook pernah berkata bahawa Apple Intelligence ialah babak baharu dalam inovasi Apple dan akan mengubah cara pengguna menggunakan produk. Beliau menekankan bahawa pendekatan unik Apple menggabungkan kecerdasan buatan generatif dan maklumat peribadi pengguna untuk menyediakan perkhidmatan pintar yang benar-benar berguna. Selain itu, Apple Intelligence menyediakan akses peribadi dan selamat sepenuhnya kepada maklumat, membantu pengguna mencapai perkara yang paling penting bagi mereka. Ini adalah pengalaman AI yang unik untuk Apple.
Kini, lebih sebulan telah berlalu sejak pengumuman rasmi Apple Intelligence Teknologi ini akhirnya telah dilaksanakan pada peranti pintar, dan dokumen teknikal yang berkaitan akhirnya telah dikeluarkan.
Pada hari lalu, pengguna yang memiliki iPhone 15 Pro atau iPhone 15 Pro Max boleh memuat turun beta pembangunan iOS 18.1 dan mengalami keupayaan Apple Intelligence.
Dengan keluaran laporan teknikal setebal 47 halaman ini, kita boleh mempunyai pemahaman yang lebih mendalam tentang senjata rahsia di sebalik Apple Intelligence.
- Alamat laporan: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf
Perincian laporan - A-FM pada model untuk Apple Foundation Model, model bahasa dengan kira-kira 3 bilion parameter, dan model bahasa berasaskan pelayan yang lebih besar AFM-server yang boleh melaksanakan tugas khusus dengan cekap, tepat dan bertanggungjawab (Rajah 1). Dua model asas ini wujud sebagai sebahagian daripada keluarga besar model generatif Apple.
Seni bina dan latihan
Model asas AFM ialah model penyahkod padat yang dibina berdasarkan seni bina Transformer, dengan reka bentuk berikut:
- matriks ke mengurangkan penggunaan Memori untuk parameter.
- Gunakan RMSNorm untuk pra-penormalan untuk meningkatkan kestabilan latihan.
- Penormalan pertanyaan/kunci untuk meningkatkan kestabilan latihan.
- Perhatian Pertanyaan Berkumpulan (GQA) dengan 8 pengepala nilai kunci untuk mengurangkan jejak memori cache KV.
- SwiGLU diaktifkan untuk meningkatkan kecekapan.
- Pembenaman kedudukan RoPE, kekerapan asas ditetapkan kepada 500k untuk menyokong konteks yang panjang.
Proses pra-latihan AFM memainkan peranan penting dalam membangunkan model bahasa berprestasi tinggi untuk menyokong pelbagai ciri Apple Intelligence. Pasukan penyelidik menumpukan pada kecekapan dan kualiti data untuk mencapai pengalaman pengguna hujung ke hujung yang berkualiti tinggi. Dari segi pasca latihan, pasukan penyelidik mendapati bahawa menambah baik pasca latihan am boleh meningkatkan prestasi semua ciri Apple Intelligence kerana model itu akan mempunyai keupayaan yang lebih kuat untuk mengikuti arahan, menaakul dan menulis. Untuk memastikan bahawa fungsi model ini selaras dengan komitmen Apple untuk melindungi privasi pengguna dan prinsip AI Bertanggungjawab Apple, kerja selepas latihan merangkumi satu siri pengumpulan dan penjanaan data, pelarasan arahan dan inovasi penjajaran. Proses pasca latihan terdiri daripada dua peringkat: penalaan halus diselia (SFT) dan pembelajaran pengukuhan daripada maklum balas manusia (RLHF). Pasukan penyelidik mencadangkan dua algoritma pasca latihan baharu: (1) algoritma penalaan halus pensampelan penolakan dengan jawatankuasa guru (iTeC), dan (2) algoritma RLHF untuk lelaran pembelajaran pengukuhan dengan pengoptimuman dasar keturunan cermin ( pengoptimuman dasar keturunan cermin ) dan penganggar kelebihan biarkan satu keluar (MDLOO), meningkatkan kualiti model dengan ketara. Model asas direka khas untuk Apple Intelligence, sistem kecerdasan peribadi yang menyokong iPhone, iPad dan Mac. Apple mendapati bahawa mereka boleh meningkatkan prestasi model kecil ke tahap terkini dengan memperhalusinya untuk tugas tertentu, dan sebagai tambahan, mereka membangunkan seni bina berdasarkan penyesuai boleh tukar masa jalan, membolehkan model asas tunggal untuk dikhususkan untuk berpuluh-puluh tugas sedemikian. Rajah 2 menunjukkan gambaran keseluruhan peringkat tinggi. Apple menggunakan penyesuai LoRA untuk memperhalusi model untuk tugasan tertentu. Untuk setiap tugas, kami melaraskan semua matriks unjuran linear dalam lapisan perhatian kendiri AFM dan lapisan yang disambungkan sepenuhnya dalam rangkaian suapan ke hadapan dari segi titik. Dengan hanya memperhalusi penyesuai, parameter asal model asas pra-latihan kekal tidak berubah, membolehkan pengetahuan am model dikekalkan semasa menyesuaikan penyesuai untuk menyokong tugas tertentu. Untuk memasukkan AFM ke dalam peranti tepi dengan belanjawan memori terhad dan mengurangkan kos inferens, teknik pengkuantitian perlu dipertimbangkan. Penyelidikan terdahulu telah mendapati bahawa model terkuantisasi 4-bit mengalami kerugian kecil berbanding titik terapung mentah 32/16-bit. Untuk mencapai keseimbangan terbaik antara kapasiti model dan prestasi inferens, Apple membangunkan kaedah pengkuantitian terkini dan rangka kerja yang memanfaatkan penyesuai pemulihan ketepatan. Ini membolehkan model mencapai pengkuantitian hampir tanpa kerugian apabila purata berat setiap berat kurang daripada 4 bit, dan menyediakan pemilihan skema pengkuantitian yang fleksibel. Selepas pasca latihan, model dimampatkan dan dikuantisasi untuk mendapatkan purata berat kurang daripada 4 bit. Model kuantitatif biasanya menunjukkan kehilangan kualiti yang sederhana. Oleh itu, Apple tidak akan menggunakan model terkuantasi secara langsung untuk pembangunan ciri, tetapi melampirkan set penyesuai LoRA yang cekap parameter untuk pemulihan kualiti. Perlu diperhatikan bahawa penyesuai ketepatan-pemulihan latihan adalah cekap sampel dan boleh dianggap sebagai versi mini model asas latihan. Dalam fasa pra-latihan penyesuai, hanya kira-kira 10 bilion token (kira-kira 0.15% daripada latihan model asas) diperlukan untuk memulihkan sepenuhnya keupayaan model terkuantasi. Memandangkan penyesuai aplikasi akan diperhalusi daripada penyesuai pemulihan ketepatan ini, ia tidak akan dikenakan sebarang penggunaan memori tambahan atau kos inferens. Mengenai saiz penyesuai, Apple telah mendapati bahawa kedudukan penyesuai 16 memberikan pertukaran terbaik antara kapasiti model dan prestasi inferens. Walau bagaimanapun, untuk fleksibiliti, Apple menyediakan satu set penyesuai ketepatan-pemulihan dengan kedudukan {8, 16, 32} berbeza untuk pasukan aplikasi untuk dipilih. Kuantiti ketepatan campuran Sambungan baki wujud untuk setiap blok pengubah dan setiap lapisan dalam AFM. Oleh itu, tidak mungkin semua lapisan mempunyai kepentingan yang sama. Berikutan gerak hati ini, Apple mengurangkan lagi penggunaan memori dengan menolak lapisan tertentu untuk menggunakan kuantisasi 2-bit (lalai ialah 4-bit). Secara purata, AFM pada peranti boleh memampatkan kepada hanya kira-kira 3.5 bit setiap berat (bpw) tanpa kehilangan kualiti yang ketara. Pasukan penyelidik menggunakan alat penilaian sumber terbuka biasa dan penanda aras untuk menilai model pra-latihan AFM. Jadual 2 menunjukkan keputusan AFM-pada-peranti dan AFM-server pada HELM MMLU v1.5.0.
Tanda aras ini menunjukkan bahawa model pra-latihan AFM mempunyai keupayaan bahasa dan inferens yang kukuh, menyediakan asas yang kukuh untuk pasca latihan dan penalaan halus.
Hasil perbandingan AFM dengan model sumber terbuka (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) dan model komersial (GPT3.5 dan GPT-4) adalah seperti berikut 3 ditunjukkan. Model AFM lebih disukai oleh penilai manusia berbanding model lain. Khususnya, AFM-pada-peranti mencapai kadar kemenangan 47.7% berbanding Phi-3-mini walaupun saiz model 25% lebih kecil, malah lebih baik daripada garis dasar kukuh sumber terbuka Gemma-7B dan Mistral-7B.
Untuk mengukur keupayaan model menjana respons yang mengikut arahan dalam gesaan, pasukan penyelidik menilai AFM-pada-peranti dan AFM-server pada penanda aras IFEval, dengan keputusan ditunjukkan dalam Rajah 4 di bawah:
Seperti yang ditunjukkan dalam Rajah 5, pelayan AFM mencapai ketepatan keseluruhan yang terbaik, lebih baik daripada Gemini-1.5-Pro-Preview-0514 dan GPT-4.
Apple membandingkan AFM dengan beberapa model terbaik serta model sumber terbuka yang lebih kecil. Seperti yang ditunjukkan dalam Rajah 6, AFM-pada-peranti boleh mencapai prestasi yang setara atau lebih baik berbanding dengan Gemma-7B dan Mistral-7B. Prestasi pelayan AFM jauh lebih baik daripada DBRX-Instruct dan GPT3.5, dan setanding dengan GPT4.
Rajah 7 membandingkan prestasi AFM selepas terlatih pada penanda aras matematik. Didapati bahawa AFM-pada-peranti menunjukkan prestasi yang lebih baik daripada Mistral-7B dan Gemma-7B, walaupun saiznya kurang daripada separuh.
Rajah di bawah menunjukkan penilai manusia menilai kualiti penyesuai AFM pada peranti, Phi-3-mini, Llama-3-8B dan Gemma-7B pada tugasan ringkasan. Rajah 8 menunjukkan bahawa penyesuai AFM-pada-peranti secara amnya mengatasi prestasi model lain.
Apple Intelligence dibangunkan dan direka bentuk dengan mengambil kira privasi pengguna. Rajah 9 meringkaskan kadar pelanggaran yang diberikan oleh penilai manusia pada model yang berbeza, lebih rendah lebih baik. Kedua-dua AFM-on-device dan AFM-server adalah teguh kepada gesaan lawan, dengan kadar pelanggaran yang jauh lebih rendah daripada model sumber terbuka dan komersial.
Rajah 10 menunjukkan model AFM diutamakan oleh penilai manusia berbanding model lain. Atas ialah kandungan terperinci Terbongkar! Dokumen 47 halaman yang merungkai kecerdasan Apple, daripada seni bina dan data kepada latihan dan pengoptimuman. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!