Tadi, Llama 3.1 yang ditunggu-tunggu telah dikeluarkan secara rasmi! Meta secara rasmi mengeluarkan suara "Sumber terbuka membawa era baru". Dalam blog rasmi, Meta berkata: "Sehingga hari ini, model bahasa besar sumber terbuka kebanyakannya ketinggalan di belakang model tertutup dari segi fungsi dan prestasi. Kini, kami menyambut era baharu yang dipimpin oleh sumber terbuka. Kami mengeluarkan Meta Llama 3.1 405B secara terbuka, kami percaya ini adalah model asas sumber terbuka terbesar dan paling berkuasa di dunia, dengan lebih daripada 300 juta muat turun semua versi Llama setakat ini, dan kami baru bermula." Pengasas Meta. , Ketua Pegawai Eksekutif Zuckerberg juga secara peribadi menulis artikel panjang "Open Source AI Is the Path Forward", menjelaskan mengapa sumber terbuka adalah perkara yang baik untuk semua pembangun, Meta dan dunia. Sorotan daripada keluaran ini termasuk:
-
Siri model terkini memanjangkan panjang konteks kepada 128K, menambah sokongan untuk lapan bahasa dan termasuk model sumber terbuka teratas 405 3.1; Llama 3.1 405B berada dalam liganya sendiri, dan Meta secara rasmi mengatakan ia setanding dengan model sumber tertutup terbaik
-
Keluaran ini juga menyediakan lebih banyak komponen (termasuk sistem rujukan) untuk digunakan dengan model untuk menjadikan Llama sebuah Satu sistem;
-
Pengguna boleh mengalami Llama 3.1 405B melalui WhatsApp dan meta.ai.
Alamat: https://llama.meta.com/Anda boleh memuat turun dan mencubanya.
Llama 3.1 405B ialah model pertama yang boleh didapati secara umum yang setanding dengan model AI teratas dari segi akal budi, manipulasi bahasa, kebolehgunaan
Meta berkata generasi terbaru Llama akan memberi inspirasi kepada aplikasi baharu dan paradigma pemodelan, termasuk memanfaatkan penjanaan data sintetik untuk meningkatkan dan melatih model yang lebih kecil, serta penyulingan model - pendekatan yang tidak pernah dilihat dalam keupayaan sumber terbuka untuk mencapai.
Pada masa yang sama, Meta juga telah melancarkan versi peningkatan model 8B dan 70B, menyokong berbilang bahasa, dengan panjang konteks 128K dan keupayaan penaakulan yang lebih kukuh. Model terkini menyokong kes penggunaan lanjutan seperti ringkasan teks bentuk panjang, ejen perbualan berbilang bahasa dan pembantu pengekodan.
Sebagai contoh, Llama 3.1 boleh menterjemah cerita ke dalam bahasa Sepanyol:
Apabila pengguna bertanya "Terdapat 3 baju, 5 pasang seluar pendek dan 1 pakaian, andaikan anda ingin melakukan perjalanan selama 10 hari. pakaian Adakah ia cukup? "Model boleh melakukan inferens dengan cepat.
Konteks panjang: Untuk dokumen yang dimuat naik, Llama 3.1 dapat menganalisis dan meringkaskan dokumen besar sehingga 8k token.
Pembantu Pengekodan, untuk keperluan pengguna, anda boleh menulis kod dengan cepat:
Selain itu, pembangun Llama 3.1 405B turut mentweet "spoiler", menyatakan bahawa pembangunan model yang mengintegrasikan keupayaan suara dan visual seperti GPT-4o masih dalam pembangunan. Meta juga telah membuat perubahan pada lesen sumber terbuka untuk membolehkan pembangun menggunakan output model Llama (termasuk 405B) untuk menambah baik model lain. Selain itu, selaras dengan komitmen sumber terbukanya, mulai hari ini, Meta menyediakan model ini kepada komuniti untuk dimuat turun di llama.meta.com dan Wajah Memeluk.
- https://huggingface.co/meta-llama
Meta dinilai pada lebih daripada 150 set data penanda aras, selain itu, mereka juga menjalankan penilaian manusia yang meluas.
Hasil eksperimen menunjukkan bahawa model perdana Llama 3.1 405B berdaya saing dengan model asas terkemuka termasuk GPT-4, GPT-4o dan Claude 3.5 Sonnet merentasi pelbagai tugas. Tambahan pula, model kecil 8B dan 70B bersaing dengan model sumber tertutup dan sumber terbuka dengan bilangan parameter yang serupa. . Untuk mendayakan latihan pada skala ini, Meta mengoptimumkan keseluruhan susunan latihan dan melatih lebih 16,000 GPU H100, menjadikan model ini model Llama pertama yang dilatih pada skala ini.
Untuk menyelesaikan masalah ini, Meta telah membuat pilihan reka bentuk berikut, memfokuskan pada memastikan proses pembangunan model berskala dan mudah. Seni bina model Transformer penyahkod standard dengan hanya pelarasan kecil dipilih dan bukannya model pakar hibrid untuk memaksimumkan kestabilan latihan. Menggunakan prosedur selepas latihan berulang, menggunakan penalaan halus diselia dan pengoptimuman keutamaan langsung pada setiap pusingan. Ini membolehkan Meta mencipta data sintetik berkualiti tinggi untuk setiap pusingan dan meningkatkan prestasi setiap ciri. Berbanding dengan versi Llama sebelumnya, Meta telah meningkatkan kuantiti dan kualiti data yang digunakan untuk pra-latihan dan pasca-latihan, seperti membangunkan saluran paip pra-pemprosesan dan pengurusan yang lebih berhati-hati untuk data pra-latihan dan Data selepas latihan Membangunkan jaminan kualiti dan kaedah penapisan yang lebih ketat. Seperti yang dijangkakan daripada undang-undang penskalaan model bahasa, model perdana baharu Meta mengatasi model yang lebih kecil yang dilatih menggunakan prosedur yang sama. Meta juga menggunakan model parameter 405B untuk meningkatkan kualiti selepas latihan model yang lebih kecil.
- Untuk menyokong keluaran inferens berskala besar model 405B, Meta mengkuantifikasi model daripada 16 bit (BF16) kepada 8 bit (FP8), dengan berkesan mengurangkan keperluan pengkomputeran yang diperlukan dan membenarkan model berjalan pada nod pelayan tunggal.
Tweak Perintah dan Sembang
Llama 3.1 405B berusaha untuk meningkatkan kegunaan, kualiti dan arahan terperinci mengikut model dalam bertindak balas kepada arahan pengguna, sambil ens.
Dalam fasa pasca latihan, pasukan penyelidik membina model sembang terakhir dengan melakukan beberapa pusingan penjajaran berdasarkan model pra-latihan. Setiap pusingan melibatkan penyeliaan penalaan halus (SFT), pensampelan penolakan (RS) dan pengoptimuman keutamaan langsung (DPO).
Pasukan penyelidik menggunakan penjanaan data sintetik untuk menghasilkan sebahagian besar contoh SFT, dan berulang beberapa kali untuk menjana data sintetik yang semakin berkualiti tinggi merentas semua ciri. Selain itu, pasukan penyelidik menggunakan pelbagai teknik pemprosesan data untuk menapis data sintetik ini kepada kualiti tertinggi dan memperhalusi volum data merentas kebolehskalaan fungsian.
Model Llama sentiasa wujud sebagai sebahagian daripada sistem AI dan boleh menyelaraskan berbilang komponen, termasuk memanggil alat luaran. Meta direka bentuk untuk melangkaui model asas dan memberi pemaju kelonggaran untuk mereka bentuk dan mencipta produk tersuai yang sesuai dengan visi mereka.
Untuk membangunkan AI secara bertanggungjawab di luar lapisan model, Meta telah mengeluarkan sistem rujukan lengkap yang merangkumi berbilang aplikasi contoh serta komponen baharu seperti Llama Guard 3, model keselamatan berbilang bahasa dan Prompt Guard (penapis suntikan segera) . Aplikasi sampel ini adalah sumber terbuka dan boleh dibina oleh komuniti sumber terbuka. Untuk bekerjasama secara lebih meluas dengan industri, syarikat permulaan dan komuniti sumber terbuka untuk membantu mentakrifkan antara muka komponen dengan lebih baik, Meta telah menerbitkan permintaan ulasan untuk "Llama Stack" di GitHub. Llama Stack ialah satu set antara muka piawai untuk membina komponen rantai alat kanonik (penalaan halus, penjanaan data sintetik) dan aplikasi ejen. Ini membantu mencapai kesalingoperasian dengan lebih mudah.
Tidak seperti model tertutup, pemberat model Llama tersedia untuk dimuat turun. Pembangun boleh menyesuaikan model sepenuhnya mengikut keperluan dan aplikasi mereka, melatih set data baharu dan melakukan penalaan halus tambahan. Dibangunkan menggunakan Llama 3.1 405BBagi pembangun biasa, menggunakan model berskala besar seperti 405B sudah pasti memerlukan banyak kemahiran dan pengkomputeran. Dalam berkomunikasi dengan komuniti pembangun, Meta menyedari bahawa pembangunan AI generatif adalah lebih daripada sekadar memberikan gesaan input kepada model. Mereka mengharapkan semua pembangun mengeksploitasi potensi penuh Llama 3.1 405B dalam bidang berikut:
- Inferens masa nyata dan kelompok
- Model penalaan halus dan penilaian yang diselia
- aplikasi
- pralatihan berterusan
- Retrieval Augmented Generation (RAG)
- Panggilan fungsi
penjanaan data sintetik
Dikeluarkan mulai sekarang, Llama 3.1 40 Semua ciri lanjutan daripada model 5B akan dibuka dan pembangun boleh bermula dengan segera. Pembangun juga boleh meneroka aliran kerja peringkat tinggi, seperti penjanaan data sintetik berdasarkan penyulingan model. Dalam peningkatan ini, Meta juga menyepadukan penyelesaian yang disediakan oleh rakan kongsi AWS, NVIDIA dan Databricks dengan lancar untuk mencapai penjanaan penambahan perolehan (RAG) yang lebih cekap. Selain itu, Groq telah dioptimumkan untuk inferens kependaman rendah untuk menggunakan model dalam awan, dan peningkatan prestasi yang serupa telah dibuat untuk sistem tempatan. Meta juga telah terbina dalam "pakej hadiah alat" untuk Llama 3.1 405B kali ini, termasuk projek utama seperti vLLM, TensorRT dan PyTorch, daripada pembangunan model hingga penggunaan "di luar kotak", semuanya dalam satu langkah. Pautan rujukan: https://ai.meta.com/blog/meta-llama-3-1/Atas ialah kandungan terperinci Model terkuat Llama 3.1 405B dikeluarkan secara rasmi, Zuckerberg: Sumber terbuka menerajui era baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!