Sokongan UTF Go: Satu Had Menarik
Saya telah meneroka sokongan UTF-8 Go sejak kebelakangan ini dan ingin tahu tentang cara ia mengendalikan skrip bukan Latin dalam kod.
Pergi dan UTF-8
Fail sumber Go dikodkan UTF-8 secara lalai. Ini bermakna anda boleh, secara teori, menggunakan aksara Unicode dalam nama pembolehubah anda, nama fungsi dan banyak lagi.
Sebagai contoh, dalam kod dandang taman permainan rasmi Go, anda mungkin menjumpai kod seperti ini:
package main import "fmt" func main() { 消息 := "Hello, World!" fmt.Println(消息) }
Di sini, 消息 ialah bahasa Cina untuk "mesej". Go menangani perkara ini tanpa sebarang masalah, terima kasih kepada sokongan Unicodenya. Keupayaan ini ialah satu sebab mengapa Go telah mendapat populariti di negara seperti China dan Jepun—pembangun boleh menulis kod menggunakan pengecam yang bermakna dalam bahasa mereka sendiri. Anda tidak akan percaya, tetapi terdapat populariti besar di China, kerana menulis kod dalam bahasa ibunda mereka dan saya menyukainya.
Percubaan Menggunakan Pengecam Tamil
Sememangnya, saya ingin mencuba ini dengan bahasa Tamil, bahasa ibunda saya.
Ini contoh mudah yang saya tulis:
package main import "fmt" func main() { எண்ணிக்கை := 42 // "எண்ணிக்கை" means "number" fmt.Println("Value:", எண்ணிக்கை) }
Pada pandangan pertama, ini kelihatan mudah yang boleh dijalankan tanpa sebarang ralat.
Tetapi, apabila saya cuba menyusun kod, saya mengalami ralat
./prog.go:6:11: invalid character U+0BCD '்' in identifier ./prog.go:6:17: invalid character U+0BBF 'ி' in identifier ./prog.go:6:23: invalid character U+0BCD '்' in identifier ./prog.go:6:29: invalid character U+0BC8 'ை' in identifier ./prog.go:7:33: invalid character U+0BCD '்' in identifier ./prog.go:7:39: invalid character U+0BBF 'ி' in identifier ./prog.go:7:45: invalid character U+0BCD '்' in identifier ./prog.go:7:51: invalid character U+0BC8 'ை' in identifier
Memahami Isu dengan Markah Gabungan Tamil
Untuk memahami perkara yang sedang berlaku, adalah penting untuk mengetahui sedikit tentang cara skrip Tamil berfungsi.
Tamil ialah abugida—sistem tulisan di mana setiap urutan konsonan-vokal ditulis sebagai satu unit. Dalam Unicode, ini selalunya melibatkan penggabungan aksara konsonan asas dengan satu atau lebih tanda gabungan yang mewakili vokal atau pengubah suai lain.
Contohnya:
Huruf Tamil க (U 0B95) mewakili bunyi konsonan "ka"
Untuk mewakili "ki" anda akan menggabungkan க dengan tanda vokal ி (U 0BBF), menghasilkan கி.
Tanda vokal ி ialah tanda gabungan, secara khusus diklasifikasikan sebagai "Tandakan Tanpa Jarak" dalam Unicode.
Di sinilah masalah timbul.
Spesifikasi bahasa Go membenarkan huruf Unikod dalam pengecam tetapi tidak termasuk tanda gabungan. Khususnya, pengecam boleh termasuk aksara yang dikelaskan sebagai "Huruf" (kategori Lu, Ll, Lt, Lm, Lo, atau Nl) dan digit, tetapi tidak menggabungkan markah (kategori Mn, Mc, Me).
Contoh Gabungan Markah dalam Bahasa Tamil
Mari kita lihat bagaimana aksara Tamil terbentuk:
Konsonan Kendiri: க (U 0B95) - Dibenarkan dalam pengecam Go.
Tanda Vokal Konsonan: கா (U 0B95 U 0BBE) - Tidak dibenarkan kerana ா (U 0BBE) ialah tanda gabungan (Mc).
Tanda Vokal Konsonan: கி (U 0B95 U 0BBF) - Tidak dibenarkan kerana ி (U 0BBF) ialah tanda gabungan (Mn).
Tanda Vokal Konsonan: கூ (U 0B95 U 0BC2) - Tidak dibenarkan kerana ூ (U 0BC2) ialah tanda gabungan (Mc).
Dalam pengecam எண்ணிக்கை ("nombor"), aksara termasuk gabungan tanda:
எ (U 0B8E) - Surat, dibenarkan.
ண் (U 0BA3 U 0BCD) - Dibentuk oleh ண (U 0BA3) dan virama ் (U 0BCD), tanda gabungan (Mn).
ண (U 0BA3) - Surat, dibenarkan.
ிக்கை - Mengandungi gabungan markah seperti ி (U 0BBF) dan ை (U 0BC8).
Oleh kerana tanda gabungan ini tidak dibenarkan dalam pengecam Go, pengkompil membuang ralat apabila ia menemuinya.
Mengapa Aksara Cina Berfungsi tetapi Bahasa Tamil Tidak
Aksara Cina biasanya dikelaskan di bawah kategori "Huruf, Lain-lain" (Lo) dalam Unikod. Ia adalah simbol kendiri yang tidak memerlukan gabungan markah untuk membentuk aksara lengkap. Itulah sebabnya pengecam seperti 消息 berfungsi dengan sempurna dalam Go.
Implikasi Praktikal
Ketidakupayaan untuk menggunakan gabungan markah dalam pengecam mempunyai implikasi yang ketara untuk skrip seperti Tamil:
Ekspresi Terhad: Tanpa menggabungkan markah, hampir mustahil untuk menulis pengecam yang bermakna dalam bahasa Tamil.
Halangan Pendidikan: Menggunakan skrip asli boleh menjadikan pembelajaran kod lebih mudah diakses, tetapi pengehadan ini menghalang kemungkinan itu, khususnya untuk bahasa yang mengikuti sistem tulisan berasaskan abugida.
Cabaran Inklusiviti: Walaupun Go menyasarkan keterangkuman dengan sokongan UTF-8nya, sekatan untuk menggabungkan markah mengecualikan banyak bahasa yang bergantung padanya.
Membungkus
Sokongan UTF-8 Go ialah langkah yang bagus untuk menjadikan pengaturcaraan lebih inklusif. Walau bagaimanapun, pengecualian penggabungan markah dalam pengecam mewujudkan halangan untuk bahasa seperti Tamil, Hindi dan Arab, di mana penggabungan markah adalah penting dalam skrip.
Sebagai pembangun dari Tamilnadu, bekerja terutamanya di Go, penemuan ini menarik dan agak mengecewakan. Ia menyerlahkan kerumitan pengantarabangsaan sebenar dalam bahasa pengaturcaraan.
Siapa yang membuat kod dalam bahasa ibunda untuk membina Produk Perisian !?!!!!
Sudah tentu! Tidak begitu jauh selain daripada wilayah Asia Timur, di mana sistem tulisan berasaskan ‘abugida’ tidak diikuti.
Dan, jelas sekali, pencipta Go tidak akan bermaksud pematuhan UTF-8 untuk 'pengekodan bahasa asli' pada mulanya. Sebabnya lebih kepada penyediaan pemprosesan ASCII yang lebih baik, penjajaran dengan piawaian web moden, pengendalian rentetan yang konsisten dan satu langkah ke arah saling kendali.
Percubaan ini hanyalah rasa ingin tahu saya untuk memahami sejauh mana kita boleh mengambil Pematuhan UTF-8 dalam Go. Sebagai seseorang yang berusaha membina sistem fintech yang boleh skala dan diedarkan dalam Go, saya mendapati penting untuk mengetahui nuansa ini.
Itu sahaja. Terima kasih kerana membaca bersama.
Selamat mengekod :) Semoga kod itu bersama anda.
Atas ialah kandungan terperinci Sokongan UTF Go: Satu Had Menarik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

OpenSSL, sebagai perpustakaan sumber terbuka yang digunakan secara meluas dalam komunikasi yang selamat, menyediakan algoritma penyulitan, kunci dan fungsi pengurusan sijil. Walau bagaimanapun, terdapat beberapa kelemahan keselamatan yang diketahui dalam versi sejarahnya, yang sebahagiannya sangat berbahaya. Artikel ini akan memberi tumpuan kepada kelemahan umum dan langkah -langkah tindak balas untuk OpenSSL dalam sistem Debian. Debianopenssl yang dikenal pasti: OpenSSL telah mengalami beberapa kelemahan yang serius, seperti: Kerentanan Pendarahan Jantung (CVE-2014-0160): Kelemahan ini mempengaruhi OpenSSL 1.0.1 hingga 1.0.1f dan 1.0.2 hingga 1.0.2 versi beta. Penyerang boleh menggunakan kelemahan ini untuk maklumat sensitif baca yang tidak dibenarkan di pelayan, termasuk kunci penyulitan, dll.

Laluan Pembelajaran Backend: Perjalanan Eksplorasi dari Front-End ke Back-End sebagai pemula back-end yang berubah dari pembangunan front-end, anda sudah mempunyai asas Nodejs, ...

Di bawah rangka kerja beegoorm, bagaimana untuk menentukan pangkalan data yang berkaitan dengan model? Banyak projek beego memerlukan pelbagai pangkalan data untuk dikendalikan secara serentak. Semasa menggunakan beego ...

Perpustakaan yang digunakan untuk operasi nombor terapung dalam bahasa Go memperkenalkan cara memastikan ketepatannya ...

Masalah Threading Giliran di GO Crawler Colly meneroka masalah menggunakan Perpustakaan Colly Crawler dalam bahasa Go, pemaju sering menghadapi masalah dengan benang dan permintaan beratur. � ...

Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apabila menggunakan Goland untuk Pembangunan Bahasa GO, banyak pemaju akan menghadapi tag struktur tersuai ...

Masalah menggunakan redisstream untuk melaksanakan beratur mesej dalam bahasa Go menggunakan bahasa Go dan redis ...

Artikel ini memperkenalkan cara mengkonfigurasi MongoDB pada sistem Debian untuk mencapai pengembangan automatik. Langkah -langkah utama termasuk menubuhkan set replika MongoDB dan pemantauan ruang cakera. 1. Pemasangan MongoDB Pertama, pastikan MongoDB dipasang pada sistem Debian. Pasang menggunakan arahan berikut: SudoaptDateSudoaptInstall-ImongoDB-Org 2. Mengkonfigurasi set replika replika MongoDB MongoDB Set memastikan ketersediaan dan kelebihan data yang tinggi, yang merupakan asas untuk mencapai pengembangan kapasiti automatik. Mula MongoDB Service: sudosystemctlstartmongodsudosys
