Pembukaan Rahsia Model Bahasa Besar: menyelam yang mendalam ke dalam tokenisasi
Ingat buzz yang mengelilingi GPT-3 Openai pada tahun 2020? Walaupun bukan yang pertama dalam barisannya, keupayaan penjanaan teks GPT-3 yang luar biasa meletupkannya. Sejak itu, model bahasa besar yang banyak (LLM) telah muncul. Tetapi bagaimana LLMs seperti bahasa chatgpt menguraikan bahasa? Jawapannya terletak pada proses yang dipanggil tokenisasi.
Artikel ini menarik inspirasi dari siri YouTube yang berwawasan Andrej Karpathy, "Deep Dive ke LLMS seperti Chatgpt," yang mesti menonton bagi sesiapa yang mencari pemahaman yang lebih mendalam tentang LLMS. (Sangat disyorkan!) Langkau ke hadapan jika anda sudah biasa dengan Rangkaian Neural dan LLMS.
Di dalam model bahasa besarLLMS menggunakan rangkaian saraf pengubah - formula matematik kompleks. Input adalah urutan token (perkataan, frasa, atau aksara) yang diproses melalui lapisan penyembuhan, menukarnya ke dalam perwakilan berangka. Input ini, bersama -sama dengan parameter rangkaian (berat), dimasukkan ke dalam persamaan matematik besar -besaran.
Rangkaian saraf moden membanggakan berbilion -bilion parameter, pada mulanya ditetapkan secara rawak. Rangkaian pada mulanya membuat ramalan rawak. Latihan secara beransur -ansur menyesuaikan berat ini untuk menyelaraskan output rangkaian dengan corak dalam data latihan. Oleh itu, latihan melibatkan mencari set berat optimum yang paling mencerminkan sifat statistik data latihan. Pada mulanya digunakan untuk terjemahan mesin saraf, kini menjadi asas kepada LLMS.
Untuk pemahaman visual rangkaian pengubah peringkat pengeluaran, lawati https://www.php.cn/link/f4a75336b06b0. Laman web ini menawarkan visualisasi 3D interaktif arsitektur GPT dan proses kesimpulan mereka.
Butiran lanjut mengenai penciptaan Fineweb di sini ). src = "https://img.php.cn/upload/article/000/000/000/174166081948412.jpg" src = "https://img.php.cn/upload/article/000/000/000/174166082170272.jpg" alt = "Ini adalah bagaimana LLMS memecah bahasa"/> Matlamat kami adalah untuk melatih rangkaian saraf untuk meniru teks ini. Rangkaian saraf memerlukan urutan satu dimensi simbol dari set terhingga. Ini memerlukan menukar teks ke dalam urutan sedemikian.
Kami bermula dengan urutan teks satu dimensi. Pengekodan UTF-8 menukarkannya ke dalam urutan bit mentah.
BPE mengenal pasti pasangan byte berturut-turut dan menggantikannya dengan simbol baru. Sebagai contoh, jika "101 114" sering muncul, ia digantikan dengan simbol baru. Proses ini mengulangi, memendekkan urutan dan memperluaskan perbendaharaan kata. GPT-4 menggunakan BPE, mengakibatkan perbendaharaan kata sekitar 100,000 token. tokenisasi untuk pelbagai model. Using GPT-4's cl100k_base encoder on the first four sentences yields:
<code>11787, 499, 21815, 369, 90250, 763, 14689, 30, 7694, 1555, 279, 21542, 3770, 323, 499, 1253, 1120, 1518, 701, 4832, 2457, 13, 9359, 1124, 323, 6642, 264, 3449, 709, 3010, 18396, 13, 1226, 617, 9214, 315, 1023, 3697. 1120, 1093, 499, 0, <em>cl100k_base</em>. <p><img src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/174166084234224.jpg" class="lazy" alt="This Is How LLMs Break Down the Language"></p> <p><strong>Conclusion</strong></p> <p> Tokenisasi adalah penting untuk LLMS, mengubah teks mentah menjadi format berstruktur untuk rangkaian saraf. Mengimbangi panjang urutan dan saiz perbendaharaan kata adalah kunci untuk kecekapan pengiraan. LLM moden seperti GPT menggunakan BPE untuk prestasi yang optimum. Pemahaman tokenisasi memberikan pandangan yang berharga ke dalam kerja -kerja dalaman LLMS. </p> <p> </p> <li> llm visualisasi (<a href="https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d"> h ttps: //www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d </a>) </li> <li> llm hallucinations (link_to_hallucination_article) </li> <li> HuggingFaceFw/FineWeb · Dataset pada muka pelukan (link_to_huggingface_fineweb) </li> <li> ((https:/www.php.cn/link/271df68653f0b3c70d4446bdcbc6a2715) Tokenization - Curse NLP Hugging Face (link_to_huggingface_bpe) </li> <li> tiktokenizer (https://www.php.cn/link/3b8d8348318987a2f1a390463a pautan. Saya telah cuba mengekalkan penempatan format dan imej asal seperti yang diminta. </li></code>
Atas ialah kandungan terperinci Ini adalah bagaimana llms memecah bahasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!