Secara umumnya, lebih banyak pengiraan yang diperlukan untuk melatih rangkaian saraf, lebih baik prestasinya. Apabila meningkatkan pengiraan, keputusan mesti dibuat: menambah bilangan parameter model atau meningkatkan saiz set data—kedua-dua faktor mesti ditimbang dalam belanjawan pengiraan tetap. Kelebihan menambah bilangan parameter model ialah ia boleh meningkatkan kerumitan dan keupayaan ekspresi model, dengan itu lebih sesuai dengan data latihan. Walau bagaimanapun, terlalu banyak parameter boleh menyebabkan pemasangan berlebihan, menjadikan model berprestasi buruk pada data yang tidak kelihatan. Sebaliknya, mengembangkan saiz set data boleh meningkatkan keupayaan generalisasi model dan mengurangkan masalah overfitting.
Kami memberitahu anda: Selagi parameter dan data boleh diperuntukkan dengan sewajarnya, prestasi boleh dimaksimumkan di bawah belanjawan pengkomputeran tetap. Banyak kajian terdahulu telah meneroka undang-undang penskalaan model bahasa saraf, dan kajian ini biasanya menyimpulkan bahawa parameter dan bilangan token latihan harus dikembangkan satu sama lain.
Walau bagaimanapun, model bahasa terdahulu Penyelidikan undang-undang Scaling adalah berdasarkan Transformer yang dilatih pada teks rangkaian bertaburan. Ini adalah pengedaran data yang sangat khusus, jadi kami secara semula jadi bertanya: Bolehkah undang-undang penskalaan yang diperoleh berdasarkan set data teks web sedemikian digeneralisasikan kepada pengedaran lain?
Selain model bahasa semasa (iaitu Chinchilla) yang hanya untuk kes khusus data teks rangkaian, terdapat undang-undang penskalaan yang lebih luas di belakangnya berdasarkan atribut data latihan. Memandangkan peningkatan kualiti data boleh meningkatkan prestasi model bahasa dengan ketara, undang-undang penskalaan pembelajaran pengukuhan mungkin berskala dengan keamatan permainan. Mungkin kita boleh menganggap bahawa model bahasa semasa Undang-undang Penskalaan (iaitu Chinchilla) hanya untuk kes khusus data teks rangkaian, dan di belakangnya terdapat undang-undang Penskalaan yang lebih luas berdasarkan atribut data latihan.
Jadi, apakah sifat set data jujukan token yang digunakan untuk latihan yang sensitif kepada undang-undang penskalaan saraf? Dalam erti kata lain, jika kita ingin meramalkan cara terbaik untuk memperuntukkan pengiraan kepada proses latihan, apakah sifat data yang perlu kita perhatikan? Selain itu, adakah sifat undang-undang penskalaan yang bergantung kepada data hanyalah isu teori, atau adakah ia juga penting untuk set data dunia sebenar?
Untuk meneroka isu ini, Rohan Pandey, seorang penyelidik di syarikat data AI Reworkd, melakukan beberapa penyelidikan dan mendapat jawapan kepada soalan-soalan ini di samping itu, dia juga mencadangkan gzip algoritma pemampatan, yang boleh meramalkan kesan kerumitan data pada sifat pengembangan.
Tetapan yang akhirnya ditemuinya dipanggil Tatabahasa Tanpa Konteks Probabilistik (PCFG, pertama kali dicadangkan oleh Chomsky pada tahun 1956). Tetapan ini agak semula jadi (boleh memodelkan bahasa semula jadi, kod, dll.), mempunyai kerumitan sintaksis yang boleh dikawal, dan mengikut beberapa prinsip teori maklumat yang difahami dengan baik.
Dalam percubaan, dengan melaraskan sifat sintaksis PCFG, dia menghasilkan 6 set data dengan kerumitan yang berbeza. Bagi setiap set data, beliau melatih 6 model bahasa dengan saiz yang berbeza (parameter dari 4.4M hingga 1.4B), dan merekodkan keputusan model bahasa ini di bawah 6 langkah latihan yang berbeza (100K hingga 100M token) . Dia kemudiannya menyesuaikan undang-undang penskalaan untuk setiap set data dan mendapati bahawa parameter undang-undang penskalaan berbeza-beza secara bermakna dengan kerumitan sintaksis. Mengikuti kerja sebelumnya tentang entropi dalam tatabahasa formal, untuk metrik kerumitan dia menggunakan kebolehmampatan median bagi setiap jujukan token dalam set data, yang boleh dikira dengan mudah menggunakan gzip.
Didapati bahawa apabila kebolehmampatan data latihan berkurangan (lebih kompleks), sempadan optimum pengiraan undang-undang Penskalaan akan beralih secara beransur-ansur daripada jumlah parameter kepada saiz data. Dia kemudian mengukur kebolehmampatan kod dunia sebenar dan set data bahasa semula jadi dan mendapati bahawa yang pertama adalah lebih boleh dimampatkan dan oleh itu diramalkan mematuhi undang-undang penskalaan yang berbeza.
Tatabahasa bebas konteks (PCFG) kemungkinan ialah alat asas dalam linguistik pengiraan yang boleh digunakan untuk memodelkan sintaks bahasa semula jadi. PCFG ialah lanjutan daripada tatabahasa bebas konteks (CFG) standard yang mengaitkan kebarangkalian dalam peraturan penjanaan, dengan itu mewakili kekaburan dan kebolehubahan bahasa dalam cara yang boleh diukur. Tatabahasa ini menjana pepohon di mana setiap nod mewakili kategori sintaksis dan setiap tepi mewakili peraturan generatif yang digunakan untuk menjana ayat. Apabila menjana ayat daripada PCFG, jujukan peraturan penjanaan yang digunakan akan diambil secara probabilistik sehingga semua nod daun pokok adalah titik akhir (token leksikal sebenar).
Kami boleh mengawal sifat sintaksis PCFG untuk melaraskan kerumitan set data teks secara semula jadi. Khususnya, parameter yang boleh diterima oleh fungsi penciptaan PCFG termasuk: bilangan titik akhir, data untuk bukan titik akhir, panjang maksimum sebelah kanan peraturan penjanaan dan bilangan maksimum peraturan penjanaan yang dibenarkan untuk mana-mana bukan titik akhir ( jika nilai ini ialah 1, maka titik bukan akhir yang diberikan akan sentiasa mendapat sebelah kanan yang sama). Secara intuitif, peningkatan dalam setiap nilai di atas akan membawa kepada peningkatan kerumitan sintaksis.
Untuk mencipta PCFG berdasarkan parameter di atas, bagi setiap titik akhir, pilih secara rawak bilangan generasinya (pilihan RHS), panjang setiap generasi ini, nyatakan peraturan penjanaan dengan mengambil sampel secara rawak daripada titik akhir dan bukan- titik akhir, dan Ia diberikan kebarangkalian (dinormalkan dengan jumlah pilihan RHS untuk bukan titik akhir). Kemudian, kumpulkan semua peraturan yang dijana untuk semua bukan titik akhir dan nyatakan tatabahasa menggunakan pakej PCFG yang dibina pada NLTK.
Kemudian gunakan tatabahasa ini (dicipta secara rawak di bawah kekangan yang diberikan) untuk sampel ayat secara probabilistik untuk membina set data jujukan token. Untuk menjadikannya lebih mudah untuk membandingkan latihan mengenai tatabahasa yang berbeza (menghasilkan ayat dengan purata panjang yang berbeza) kemudian, dia memutuskan untuk mencuba ayat-ayat tersebut ke dalam dokumen dengan bilangan token yang sama. Teruskan persampelan ayat berdasarkan tatabahasa sehingga panjang konteks diisi Jika ada limpahan, ayat itu dipotong terus.
Ayat terdiri daripada titik akhir yang hanya integer, jadi ia boleh dianggap sebagai ID token model bahasa; integer 0 yang tidak digunakan (yang secara berkesan sepadan dengan noktah dalam bahasa semula jadi) digunakan untuk menyambung ayat. Untuk menjelaskannya, ini bukan tentang menghasilkan rentetan yang "kelihatan" seperti bahasa semula jadi dan kemudian menandakannya - PCFG secara langsung menjana urutan ID token itu sendiri. Kini, 6 set data jujukan token dengan kerumitan berbeza boleh dijana berdasarkan 6 set kekangan tatabahasa awal.
Untuk menganggarkan kerumitan set data yang dijana serta set data sebenar, Rohan Pandey memilih untuk menggunakan algoritma pemampatan yang dipanggil gzip.
Satu kelebihan gzip ialah terdapat asas penyelidikan teori yang baik, yang menunjukkan bahawa: kebolehmampatan adalah berkadar songsang dengan entropi, dan entropi adalah berkadar terus dengan kerumitan sintaksis. Khususnya, untuk setiap jujukan token 1000 token dalam set data, gunakan gzip dan hitung nisbah saiz (dalam bait) data termampat kepada data asal.
Kemudian, median dan sisihan piawai nisbah kebolehmampatan dikira untuk mengesahkan bahawa tatabahasa dengan kerumitan sintaksis yang lebih tinggi akan menyebabkan lebih sukar untuk memampatkan set data.
Jadual 1 menyenaraikan parameter sintaksis dan nisbah mampatan yang diukur bagi setiap tatabahasa.
Dapat diperhatikan bahawa apabila bukan titik akhir (kategori tatabahasa), titik akhir (token), pilihan sebelah kanan dan panjang tangan kanan bertambah, kadar mampatan gzip juga akan meningkat, iaitu ia menjadi lebih sukar untuk dimampatkan.
Rajah 1 memplot set data ini bersama-sama dengan bahasa semula jadi dan data kod.
Dapat dilihat bahawa dari segi kerumitan, sesetengah set data PCFG hampir dengan data kod (bahagian yang mudah dimampatkan), manakala yang lain dekat dengan bahasa semula jadi.
Untuk menentukan undang-undang Penskalaan set data, penyelidik melatih beberapa saiz yang berbeza (parameter 4.2M, 8.8M, 20.3M, 59.0M, 275.3M, 1.4B) model, Jadual 6 memberikan seni binanya butiran; kemudian dia melakukan penetapan undang-undang kuasa pada keputusan kerugian yang diperolehi. Kebanyakan percubaan dilakukan pada 4 NVIDIA A100 dengan 80 GB VRAM, menggunakan PyTorch FSDP.
Seperti yang ditunjukkan dalam Rajah 2, jika set data lebih mudah untuk dimampatkan (semakin rendah kadar kebolehmampatan), model akan menumpu lebih cepat. Ini selaras dengan pemahaman intuitif kami.
Walaupun ini menunjukkan bahawa kita memerlukan lebih banyak usaha pengiraan untuk memodelkan set data yang lebih kompleks, kita memerlukan lebih banyak bukti untuk menentukan sama ada sempadan optimum pengiraan berubah secara langsung sebagai fungsi kerumitan data. Untuk mewujudkan kepekaan bukan remeh undang-undang penskalaan kepada kerumitan data, seseorang perlu mengira undang-undang penskalaan bagi setiap set data dan menyiasat parameter pemadanannya.
Hoffmann et al Bentuk fungsi undang-undang Skala yang dicadangkan pada tahun 2022 adalah menggunakan kehilangan latihan sebagai fungsi model dan saiz data. :
Di mana N ialah bilangan parameter model, dan D ialah bilangan token dalam set data latihan. Mereka mendakwa bahawa E ialah "entropi teks semula jadi" dan undang-undang Penskalaan adalah "bebas set data". Walau bagaimanapun, apabila Rohan Pandey memasangkan hasil latihan dengan fungsi ini pada set data PCFG, beliau mendapati bahawa undang-undang Penskalaan bagi setiap set data adalah sangat berbeza, lihat Jadual 2.
Undang-undang penskalaan ini boleh mendapatkan sempadan optimum pengiraan untuk kuantiti parameter (diperolehi daripada Kaplan et al. [2020] dan Hoffmann et al. [2022]), yang boleh dipermudahkan kepada:
di mana C ialah bajet pengiraan, dalam FLOP.
Rajah 3 plot sempadan optimum Chinchilla yang dikira dan undang-undang Penskalaan yang dipasang pada setiap set data PCFG.
Adalah dapat dilihat bahawa apabila data menjadi semakin sukar untuk dimampatkan, sempadan undang-undang Skala yang diperoleh dengan memasang secara beransur-ansur menjadi berat sebelah ke arah data, di suatu tempat dalam selang kadar kebolehmampatan gzip 0.23 < < 0.45 Titik melepasi sempadan satu hingga satu Chinchilla.
Untuk meramalkan parameter undang-undang Penskalaan berdasarkan nisbah kebolehmampatan set data, padanan regresi linear mudah boleh dilakukan pada parameter undang-undang Penskalaan yang dipasang bagi setiap set data. Seperti yang telah kami nyatakan sebelum ini, untuk set data D, kaedah mengira kadar kebolehmampatan H adalah dengan terlebih dahulu mengira nisbah jumlah bit termampat kepada jumlah bit asal setiap elemen d, dan kemudian mengira purata semua elemen.
Setelah garis yang meramalkan setiap parameter (E, A, B, α, β) dipasang dari H, setiap parameter boleh ditakrifkan semula sebagai fungsi kebolehmampatan:
dan
n_x ialah parameter regresi linear selepas dipasang.
Jadual 3 memberikan nilai yang dipasang ini (dan nilai p regresi), dan Rajah 4 ialah hasil visualisasi regresi linear ini.
Hampir kesemuanya menurun secara monoton, hanya pada kadar yang berbeza, dan pada H kira-kira 0.27, α dan β bersilang. Perlu diingat bahawa E ("entropi bahasa semula jadi" yang asalnya ditetapkan kepada pemalar) ialah satu-satunya parameter yang meningkat dengan H (tetapi tidak ketara).
Kini anda boleh meparameterkan semula persamaan (1) sebagai fungsi kadar kebolehmampatan H:
Namun, memandangkan skala eksperimen di sini agak kecil dan tertumpu terutamanya pada set data PCFG, Pandey melanjutkan fungsi - selepas melaraskan Chinchilla, undang-undang Penskalaan yang bergantung kepada data diperoleh:
Di mana ε ialah berat pelarasan untuk kadar mampatan gzip data latihan, dan parameter yang ditambah ' ialah pemalar Chinchilla. . Untuk menangani isu ini, Rajah 5 membentangkan hasil tambahan.
Dapat dilihat bahawa apabila mengekalkan saiz perbendaharaan kata yang stabil dan menukar sifat sintaksis yang lain (Jadual 4), kadar kebolehmampatan gzip masih boleh meramalkan perubahan parameter undang-undang Penskalaan (korelasinya lebih kuat daripada meningkatkan Perbendaharaan Kata tetapan). . . Apabila kebolehmampatan meningkat, terdapat fenomena bias data yang sama.
Oleh itu, boleh dikatakan bahawa keputusan ini menunjukkan bahawa: undang-undang Penskalaan bergantung pada data latihan, dan nisbah kebolehmampatan gzip ialah peramal yang baik tentang kesan kerumitan data pada sifat penskalaan.
Atas ialah kandungan terperinci Adakah set data yang berbeza mempunyai undang-undang penskalaan yang berbeza? Dan anda boleh meramalkannya dengan algoritma pemampatan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!