Saya telah meneroka sokongan UTF-8 Go sejak kebelakangan ini dan ingin tahu tentang cara ia mengendalikan skrip bukan Latin dalam kod.
Pergi dan UTF-8
Fail sumber Go dikodkan UTF-8 secara lalai. Ini bermakna anda boleh, secara teori, menggunakan aksara Unicode dalam nama pembolehubah anda, nama fungsi dan banyak lagi.
Sebagai contoh, dalam kod dandang taman permainan rasmi Go, anda mungkin menjumpai kod seperti ini:
package main import "fmt" func main() { 消息 := "Hello, World!" fmt.Println(消息) }
Di sini, 消息 ialah bahasa Cina untuk "mesej". Go menangani perkara ini tanpa sebarang masalah, terima kasih kepada sokongan Unicodenya. Keupayaan ini ialah satu sebab mengapa Go telah mendapat populariti di negara seperti China dan Jepun—pembangun boleh menulis kod menggunakan pengecam yang bermakna dalam bahasa mereka sendiri. Anda tidak akan percaya, tetapi terdapat populariti besar di China, kerana menulis kod dalam bahasa ibunda mereka dan saya menyukainya.
Percubaan Menggunakan Pengecam Tamil
Sememangnya, saya ingin mencuba ini dengan bahasa Tamil, bahasa ibunda saya.
Ini contoh mudah yang saya tulis:
package main import "fmt" func main() { எண்ணிக்கை := 42 // "எண்ணிக்கை" means "number" fmt.Println("Value:", எண்ணிக்கை) }
Pada pandangan pertama, ini kelihatan mudah yang boleh dijalankan tanpa sebarang ralat.
Tetapi, apabila saya cuba menyusun kod, saya mengalami ralat
./prog.go:6:11: invalid character U+0BCD '்' in identifier ./prog.go:6:17: invalid character U+0BBF 'ி' in identifier ./prog.go:6:23: invalid character U+0BCD '்' in identifier ./prog.go:6:29: invalid character U+0BC8 'ை' in identifier ./prog.go:7:33: invalid character U+0BCD '்' in identifier ./prog.go:7:39: invalid character U+0BBF 'ி' in identifier ./prog.go:7:45: invalid character U+0BCD '்' in identifier ./prog.go:7:51: invalid character U+0BC8 'ை' in identifier
Memahami Isu dengan Markah Gabungan Tamil
Untuk memahami perkara yang sedang berlaku, adalah penting untuk mengetahui sedikit tentang cara skrip Tamil berfungsi.
Tamil ialah abugida—sistem tulisan di mana setiap urutan konsonan-vokal ditulis sebagai satu unit. Dalam Unicode, ini selalunya melibatkan penggabungan aksara konsonan asas dengan satu atau lebih tanda gabungan yang mewakili vokal atau pengubah suai lain.
Contohnya:
Huruf Tamil க (U 0B95) mewakili bunyi konsonan "ka"
Untuk mewakili "ki" anda akan menggabungkan க dengan tanda vokal ி (U 0BBF), menghasilkan கி.
Tanda vokal ி ialah tanda gabungan, secara khusus diklasifikasikan sebagai "Tandakan Tanpa Jarak" dalam Unicode.
Di sinilah masalah timbul.
Spesifikasi bahasa Go membenarkan huruf Unikod dalam pengecam tetapi tidak termasuk tanda gabungan. Khususnya, pengecam boleh termasuk aksara yang dikelaskan sebagai "Huruf" (kategori Lu, Ll, Lt, Lm, Lo, atau Nl) dan digit, tetapi tidak menggabungkan markah (kategori Mn, Mc, Me).
Contoh Gabungan Markah dalam Bahasa Tamil
Mari kita lihat bagaimana aksara Tamil terbentuk:
Konsonan Kendiri: க (U 0B95) - Dibenarkan dalam pengecam Go.
Tanda Vokal Konsonan: கா (U 0B95 U 0BBE) - Tidak dibenarkan kerana ா (U 0BBE) ialah tanda gabungan (Mc).
Tanda Vokal Konsonan: கி (U 0B95 U 0BBF) - Tidak dibenarkan kerana ி (U 0BBF) ialah tanda gabungan (Mn).
Tanda Vokal Konsonan: கூ (U 0B95 U 0BC2) - Tidak dibenarkan kerana ூ (U 0BC2) ialah tanda gabungan (Mc).
Dalam pengecam எண்ணிக்கை ("nombor"), aksara termasuk gabungan tanda:
எ (U 0B8E) - Surat, dibenarkan.
ண் (U 0BA3 U 0BCD) - Dibentuk oleh ண (U 0BA3) dan virama ் (U 0BCD), tanda gabungan (Mn).
ண (U 0BA3) - Surat, dibenarkan.
ிக்கை - Mengandungi gabungan markah seperti ி (U 0BBF) dan ை (U 0BC8).
Oleh kerana tanda gabungan ini tidak dibenarkan dalam pengecam Go, pengkompil membuang ralat apabila ia menemuinya.
Mengapa Aksara Cina Berfungsi tetapi Bahasa Tamil Tidak
Aksara Cina biasanya dikelaskan di bawah kategori "Huruf, Lain-lain" (Lo) dalam Unikod. Ia adalah simbol kendiri yang tidak memerlukan gabungan markah untuk membentuk aksara lengkap. Itulah sebabnya pengecam seperti 消息 berfungsi dengan sempurna dalam Go.
Implikasi Praktikal
Ketidakupayaan untuk menggunakan gabungan markah dalam pengecam mempunyai implikasi yang ketara untuk skrip seperti Tamil:
Ekspresi Terhad: Tanpa menggabungkan markah, hampir mustahil untuk menulis pengecam yang bermakna dalam bahasa Tamil.
Halangan Pendidikan: Menggunakan skrip asli boleh menjadikan pembelajaran kod lebih mudah diakses, tetapi pengehadan ini menghalang kemungkinan itu, khususnya untuk bahasa yang mengikuti sistem tulisan berasaskan abugida.
Cabaran Inklusiviti: Walaupun Go menyasarkan keterangkuman dengan sokongan UTF-8nya, sekatan untuk menggabungkan markah mengecualikan banyak bahasa yang bergantung padanya.
Sokongan UTF-8 Go ialah langkah yang bagus untuk menjadikan pengaturcaraan lebih inklusif. Walau bagaimanapun, pengecualian penggabungan markah dalam pengecam mewujudkan halangan untuk bahasa seperti Tamil, Hindi dan Arab, di mana penggabungan markah adalah penting dalam skrip.
Sebagai pembangun dari Tamilnadu, bekerja terutamanya di Go, penemuan ini menarik dan agak mengecewakan. Ia menyerlahkan kerumitan pengantarabangsaan sebenar dalam bahasa pengaturcaraan.
Sudah tentu! Tidak begitu jauh selain daripada wilayah Asia Timur, di mana sistem tulisan berasaskan ‘abugida’ tidak diikuti.
Dan, jelas sekali, pencipta Go tidak akan bermaksud pematuhan UTF-8 untuk 'pengekodan bahasa asli' pada mulanya. Sebabnya lebih kepada penyediaan pemprosesan ASCII yang lebih baik, penjajaran dengan piawaian web moden, pengendalian rentetan yang konsisten dan satu langkah ke arah saling kendali.
Percubaan ini hanyalah rasa ingin tahu saya untuk memahami sejauh mana kita boleh mengambil Pematuhan UTF-8 dalam Go. Sebagai seseorang yang berusaha membina sistem fintech yang boleh skala dan diedarkan dalam Go, saya mendapati penting untuk mengetahui nuansa ini.
Itu sahaja. Terima kasih kerana membaca bersama.
Selamat mengekod :) Semoga kod itu bersama anda.
Atas ialah kandungan terperinci Sokongan UTF Go: Satu Had Menarik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!