Rumah masalah biasa Perjalanan untuk membina model bahasa berskala besar pada tahun 2024

Perjalanan untuk membina model bahasa berskala besar pada tahun 2024

Apr 18, 2024 pm 03:04 PM
git model bahasa Penggunaan memori

2024 akan menyaksikan lonjakan teknologi ke hadapan dalam model bahasa besar (LLM), kerana penyelidik dan jurutera terus menolak sempadan pemprosesan bahasa semula jadi. LLM yang kaya dengan parameter ini merevolusikan cara kami berinteraksi dengan mesin, membolehkan perbualan yang lebih semula jadi, penjanaan kod dan penaakulan yang kompleks. Walau bagaimanapun, membina raksasa ini bukanlah tugas yang mudah, melibatkan kerumitan penyediaan data, teknik latihan lanjutan dan inferens berskala. Semakan ini menyelidiki butiran teknikal yang diperlukan untuk membina LLM, meliputi kemajuan terkini daripada penyumberan data kepada inovasi latihan dan strategi penjajaran.

Perjalanan untuk membina model bahasa berskala besar pada tahun 2024

2024 menjanjikan era mercu tanda untuk model bahasa besar (LLM) apabila penyelidik dan jurutera menolak sempadan apa yang mungkin dalam pemprosesan bahasa semula jadi. Rangkaian saraf berskala besar ini dengan berbilion atau malah bertrilion parameter akan merevolusikan cara kita berinteraksi dengan mesin, membolehkan perbualan yang lebih semula jadi dan terbuka, penjanaan kod dan penaakulan pelbagai mod.

Namun, membina LL.M yang begitu besar bukanlah perkara yang mudah. Ia memerlukan saluran paip yang disusun dengan teliti, daripada sumber data dan penyediaan kepada teknik latihan lanjutan dan inferens boleh skala. Dalam siaran ini, kami akan menyelami kerumitan teknikal yang terlibat dalam membina model bahasa yang canggih ini, menerokai inovasi dan cabaran terkini di seluruh timbunan.

Penyediaan Data

1. Sumber Data

Asas bagi mana-mana LLM ialah data yang dilatih, dan model moden menggunakan jumlah teks yang mengejutkan (selalunya lebih daripada satu trilion token), Teks ini berasal dari web perangkak, repositori kod, buku, dsb. Sumber data biasa termasuk:

Korpora web yang dirangkak secara umum

Repositori kod seperti GitHub dan Warisan Perisian

Dataset terpilih (domain awam vs berhak cipta) seperti Wikipedia dan buku

Data yang dijana secara sintetik

Penapis Data

Mendapatkan semua data yang tersedia biasanya tidak optimum kerana ia mungkin menimbulkan bunyi dan berat sebelah. Oleh itu, teknik penapisan data yang teliti digunakan:

Penapisan kualiti

Penapisan heuristik berdasarkan sifat dokumen seperti panjang dan bahasa

Penapisan berasaskan pengelas menggunakan contoh data yang baik dan buruk

Ambang-ambang model bahasa

Domain

penapisan khusus

Semak kesan pada subset khusus domain

Bangunkan peraturan dan ambang tersuai

Strategi pemilihan

Ambang keras yang menentukan

Persampelan rawak kebarangkalian bertindih, dan dokumen berlebihan boleh menyebabkan model "menghafal" terlalu banyak wilayah dengan berkesan. Gunakan algoritma pengesanan hampir pendua yang cekap seperti MinHash untuk mengurangkan bias redundansi ini.

4. Tokenisasi

Setelah kita mempunyai korpus teks yang berkualiti tinggi, kita perlu tokenize—menukarnya menjadi urutan token yang boleh dimakan oleh rangkaian saraf semasa latihan. Pengekodan BPE peringkat bait di mana-mana diutamakan dan mengendalikan kod, tatatanda matematik dan konteks lain dengan elegan. Pensampelan yang teliti bagi keseluruhan set data diperlukan untuk mengelak daripada memasang tokenizer itu sendiri.

5. Penilaian Kualiti Data

Menilai kualiti data ialah tugas yang mencabar tetapi penting, terutamanya pada skala yang begitu besar. Teknik yang digunakan termasuk:

Pemantauan tanda aras isyarat tinggi seperti Commonsense QA, HellaSwag dan OpenBook QA semasa latihan subset Pemeriksaan manual domain/URL dan pemeriksaan contoh yang disimpan/digugurkan

Pengelompokan data dan visualisasi

Tokenizer untuk menganalisis token

Latihan

1. Model Paralelisme

Skala semata-mata LLM moden (selalunya terlalu besar untuk dimuatkan pada satu GPU atau bahkan satu mesin) memerlukan skim selari lanjutan yang boleh digabungkan dalam pelbagai cara Pemisahan model merentas berbilang peranti dan mesin:

Keselarian data: Sebarkan kelompok merentas berbilang peranti

Keselarian tensor: Pisahkan berat model dan pengaktifan merentas peranti

Keselarian saluran paip: Anggap model sebagai urutan peringkat dan saluran paip merentas peranti

keselarian: Pisahkan urutan input individu untuk skala lebih lanjut

Menggabungkan strategi selari 4D ini boleh menskalakan kepada model dengan bertrilion parameter.

2. Perhatian yang cekap

Sesak pengiraan utama terletak pada operasi perhatian kendiri pada teras seni bina Transformer. Kaedah seperti Flash Attention dan Factorized Kernels menyediakan pelaksanaan perhatian yang sangat dioptimumkan yang mengelakkan pelaksanaan matriks perhatian penuh yang tidak perlu.

3. Latihan yang stabil

Mencapai penumpuan yang stabil pada skala yang melampau adalah satu cabaran besar. Inovasi dalam bidang ini termasuk:

Skim permulaan yang dipertingkatkan

Kaedah pemindahan hiperparameter seperti MuTransfer Pelan kadar pembelajaran yang dioptimumkan seperti penyepuhlindapan kosinus

Terobosan hebat dalam Inovasi Senibina

4. LLM:

Mixture-of-Experts (KPM): Setiap contoh hanya mengaktifkan subset parameter model, didayakan oleh rangkaian penghalaan

Mamba: Pelaksanaan yang cekap bagi lapisan campuran pakar berasaskan hash

Alliance

Walaupun kecekapan adalah penting, kami juga memerlukan LLM yang selamat, tulen, konsisten dengan nilai kemanusiaan dan bimbingan. Inilah matlamat bidang penjajaran kecerdasan buatan yang baru muncul ini:

Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF): Gunakan isyarat ganjaran yang diperoleh daripada pilihan manusia untuk keluaran model untuk memperhalusi model seperti PPO, DPO, dsb diterokai secara aktif.

AI Perlembagaan: AI Perlembagaan mengekod peraturan dan arahan ke dalam model semasa proses latihan, menerapkan tingkah laku yang diingini dari awal.

Inferens

Setelah LLM kami dilatih, kami perlu mengoptimumkannya untuk inferens yang cekap - menyediakan output model kepada pengguna dengan kependaman minimum:

Kuantiti: memampatkan pemberat model besar ke dalam format ketepatan rendah, Contohnya, int8 adalah lebih murah untuk dikira dan teknologi intensif memori yang biasa digunakan termasuk GPTQ, GGML dan NF4.

Penyahkodan spekulatif: Mempercepatkan inferens dengan menggunakan model kecil untuk melancarkan model yang lebih besar, seperti kaedah Medusa

Pengoptimuman sistem: Kompilasi tepat dalam masa, gabungan kernel dan pengoptimuman grafik CUDA boleh meningkatkan lagi kelajuan.

Kesimpulan

Membina model bahasa berskala besar pada tahun 2024 memerlukan seni bina dan inovasi yang teliti merentas keseluruhan timbunan—daripada penyumberan dan pembersihan data kepada sistem latihan berskala dan penempatan inferens yang cekap. Kami hanya membincangkan beberapa sorotan, tetapi bidang ini berkembang pada kadar yang luar biasa, dengan teknologi dan penemuan baharu muncul sepanjang masa. Cabaran yang mengelilingi penilaian kualiti data, penumpuan stabil berskala besar, konsistensi dengan nilai kemanusiaan dan penggunaan dunia nyata yang mantap kekal sebagai kawasan terbuka. Tetapi potensi untuk LL.M adalah besar - nantikan semasa kami menolak sempadan apa yang mungkin dengan AI linguistik pada tahun 2024 dan seterusnya!

Atas ialah kandungan terperinci Perjalanan untuk membina model bahasa berskala besar pada tahun 2024. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara Menjalankan Projek H5 Cara Menjalankan Projek H5 Apr 06, 2025 pm 12:21 PM

Menjalankan projek H5 memerlukan langkah -langkah berikut: memasang alat yang diperlukan seperti pelayan web, node.js, alat pembangunan, dan lain -lain. Membina persekitaran pembangunan, membuat folder projek, memulakan projek, dan menulis kod. Mulakan pelayan pembangunan dan jalankan arahan menggunakan baris arahan. Pratonton projek dalam penyemak imbas anda dan masukkan URL Server Pembangunan. Menerbitkan projek, mengoptimumkan kod, menggunakan projek, dan menyediakan konfigurasi pelayan web.

GITEE PAGES PENYEDIAAN LAMAN WEB STATIC Gagal: Bagaimana menyelesaikan masalah dan menyelesaikan kesilapan fail tunggal 404? GITEE PAGES PENYEDIAAN LAMAN WEB STATIC Gagal: Bagaimana menyelesaikan masalah dan menyelesaikan kesilapan fail tunggal 404? Apr 04, 2025 pm 11:54 PM

Giteepages Statik Laman Web Penggunaan Gagal: 404 Penyelesaian Masalah dan Resolusi Ralat Semasa Menggunakan Gitee ...

Adakah pengeluaran halaman H5 memerlukan penyelenggaraan berterusan? Adakah pengeluaran halaman H5 memerlukan penyelenggaraan berterusan? Apr 05, 2025 pm 11:27 PM

Halaman H5 perlu dikekalkan secara berterusan, kerana faktor -faktor seperti kelemahan kod, keserasian pelayar, pengoptimuman prestasi, kemas kini keselamatan dan peningkatan pengalaman pengguna. Kaedah penyelenggaraan yang berkesan termasuk mewujudkan sistem ujian lengkap, menggunakan alat kawalan versi, kerap memantau prestasi halaman, mengumpul maklum balas pengguna dan merumuskan pelan penyelenggaraan.

CS-Week 3 CS-Week 3 Apr 04, 2025 am 06:06 AM

Algorithms are the set of instructions to solve problems, and their execution speed and memory usage vary. In programming, many algorithms are based on data search and sorting. Artikel ini akan memperkenalkan beberapa algoritma pengambilan data dan penyortiran. Carian linear mengandaikan bahawa terdapat array [20,500,10,5,100,1,50] dan perlu mencari nombor 50. Algoritma carian linear memeriksa setiap elemen dalam array satu demi satu sehingga nilai sasaran dijumpai atau array lengkap dilalui. Carta aliran algoritma adalah seperti berikut: kod pseudo untuk carian linear adalah seperti berikut: periksa setiap elemen: jika nilai sasaran dijumpai: pulih semula benar-benar pelaksanaan bahasa palsu c: #termasuk #termasukintmain (tidak sah) {i

Cara menukar XML ke Excel Cara menukar XML ke Excel Apr 03, 2025 am 08:54 AM

Terdapat dua cara untuk menukar XML ke Excel: Gunakan ciri-ciri Excel terbina dalam atau alat pihak ketiga. Alat pihak ketiga termasuk XML untuk Excel Converter, XML2Excel, dan Candy XML.

Bagaimana dengan cepat membina halaman latar depan dalam projek Vite React menggunakan alat AI? Bagaimana dengan cepat membina halaman latar depan dalam projek Vite React menggunakan alat AI? Apr 04, 2025 pm 01:45 PM

Bagaimana dengan cepat membina halaman front-end dalam pembangunan back-end? Sebagai pemaju backend dengan tiga atau empat tahun pengalaman, dia telah menguasai asas JavaScript, CSS dan HTML ...

Bolehkah anda belajar bagaimana membuat halaman H5 sendiri? Bolehkah anda belajar bagaimana membuat halaman H5 sendiri? Apr 06, 2025 am 06:36 AM

Ia boleh dilaksanakan untuk pengeluaran halaman H5 belajar sendiri, tetapi ia bukan kejayaan yang cepat. Ia memerlukan menguasai HTML, CSS, dan JavaScript, yang melibatkan reka bentuk, pembangunan front-end, dan logik interaksi back-end. Amalan adalah kunci, dan belajar dengan melengkapkan tutorial, mengkaji semula bahan, dan mengambil bahagian dalam projek sumber terbuka. Pengoptimuman prestasi juga penting, memerlukan pengoptimuman imej, mengurangkan permintaan HTTP dan menggunakan rangka kerja yang sesuai. Jalan untuk belajar sendiri panjang dan memerlukan pembelajaran dan komunikasi yang berterusan.

Bagaimana untuk mengoptimumkan prestasi penukaran XML ke dalam imej? Bagaimana untuk mengoptimumkan prestasi penukaran XML ke dalam imej? Apr 02, 2025 pm 08:12 PM

XML ke penukaran imej dibahagikan kepada dua langkah: parsing XML untuk mengekstrak maklumat imej dan menjana imej. Pengoptimuman prestasi boleh dimulakan dengan memilih kaedah parsing (seperti SAX), perpustakaan grafik (seperti PIL), dan menggunakan pecutan multithreading/GPU. Parsing sax lebih sesuai untuk mengendalikan XML yang besar. Perpustakaan PIL adalah mudah dan mudah digunakan tetapi mempunyai prestasi yang terhad. Menggunakan sepenuhnya multithreading dan pecutan GPU dapat meningkatkan prestasi dengan ketara.