Sokongan UTF Go: Satu Had Menarik-Golang-php.cn

Rumah

pembangunan bahagian belakang

Golang

Sokongan UTF Go: Satu Had Menarik

Susan Sarandon

Nov 09, 2024 am 12:09 AM

Saya telah meneroka sokongan UTF-8 Go sejak kebelakangan ini dan ingin tahu tentang cara ia mengendalikan skrip bukan Latin dalam kod.

Pergi dan UTF-8

Fail sumber Go dikodkan UTF-8 secara lalai. Ini bermakna anda boleh, secara teori, menggunakan aksara Unicode dalam nama pembolehubah anda, nama fungsi dan banyak lagi.

Sebagai contoh, dalam kod dandang taman permainan rasmi Go, anda mungkin menjumpai kod seperti ini:

package main

import "fmt"

func main() {
    消息 := "Hello, World!"
    fmt.Println(消息)
}

Salin selepas log masuk

Di sini, 消息 ialah bahasa Cina untuk "mesej". Go menangani perkara ini tanpa sebarang masalah, terima kasih kepada sokongan Unicodenya. Keupayaan ini ialah satu sebab mengapa Go telah mendapat populariti di negara seperti China dan Jepun—pembangun boleh menulis kod menggunakan pengecam yang bermakna dalam bahasa mereka sendiri. Anda tidak akan percaya, tetapi terdapat populariti besar di China, kerana menulis kod dalam bahasa ibunda mereka dan saya menyukainya.

Percubaan Menggunakan Pengecam Tamil

Sememangnya, saya ingin mencuba ini dengan bahasa Tamil, bahasa ibunda saya.

Ini contoh mudah yang saya tulis:

package main

import "fmt"

func main() {
    எண்ணிக்கை := 42 // "எண்ணிக்கை" means "number"
    fmt.Println("Value:", எண்ணிக்கை)
}

Salin selepas log masuk

Pada pandangan pertama, ini kelihatan mudah yang boleh dijalankan tanpa sebarang ralat.

Tetapi, apabila saya cuba menyusun kod, saya mengalami ralat

./prog.go:6:11: invalid character U+0BCD '்' in identifier
./prog.go:6:17: invalid character U+0BBF 'ி' in identifier
./prog.go:6:23: invalid character U+0BCD '்' in identifier
./prog.go:6:29: invalid character U+0BC8 'ை' in identifier
./prog.go:7:33: invalid character U+0BCD '்' in identifier
./prog.go:7:39: invalid character U+0BBF 'ி' in identifier
./prog.go:7:45: invalid character U+0BCD '்' in identifier
./prog.go:7:51: invalid character U+0BC8 'ை' in identifier

Salin selepas log masuk

Memahami Isu dengan Markah Gabungan Tamil

Untuk memahami perkara yang sedang berlaku, adalah penting untuk mengetahui sedikit tentang cara skrip Tamil berfungsi.

Tamil ialah abugida—sistem tulisan di mana setiap urutan konsonan-vokal ditulis sebagai satu unit. Dalam Unicode, ini selalunya melibatkan penggabungan aksara konsonan asas dengan satu atau lebih tanda gabungan yang mewakili vokal atau pengubah suai lain.

Contohnya:

Huruf Tamil க (U 0B95) mewakili bunyi konsonan "ka"
Untuk mewakili "ki" anda akan menggabungkan க dengan tanda vokal ி (U 0BBF), menghasilkan கி.
Tanda vokal ி ialah tanda gabungan, secara khusus diklasifikasikan sebagai "Tandakan Tanpa Jarak" dalam Unicode.

Di sinilah masalah timbul.

Spesifikasi bahasa Go membenarkan huruf Unikod dalam pengecam tetapi tidak termasuk tanda gabungan. Khususnya, pengecam boleh termasuk aksara yang dikelaskan sebagai "Huruf" (kategori Lu, Ll, Lt, Lm, Lo, atau Nl) dan digit, tetapi tidak menggabungkan markah (kategori Mn, Mc, Me).

Contoh Gabungan Markah dalam Bahasa Tamil

Mari kita lihat bagaimana aksara Tamil terbentuk:

Konsonan Kendiri: க (U 0B95) - Dibenarkan dalam pengecam Go.
Tanda Vokal Konsonan: கா (U 0B95 U 0BBE) - Tidak dibenarkan kerana ா (U 0BBE) ialah tanda gabungan (Mc).
Tanda Vokal Konsonan: கி (U 0B95 U 0BBF) - Tidak dibenarkan kerana ி (U 0BBF) ialah tanda gabungan (Mn).
Tanda Vokal Konsonan: கூ (U 0B95 U 0BC2) - Tidak dibenarkan kerana ூ (U 0BC2) ialah tanda gabungan (Mc).

Dalam pengecam எண்ணிக்கை ("nombor"), aksara termasuk gabungan tanda:

எ (U 0B8E) - Surat, dibenarkan.
ண் (U 0BA3 U 0BCD) - Dibentuk oleh ண (U 0BA3) dan virama ் (U 0BCD), tanda gabungan (Mn).
ண (U 0BA3) - Surat, dibenarkan.
ிக்கை - Mengandungi gabungan markah seperti ி (U 0BBF) dan ை (U 0BC8).

Oleh kerana tanda gabungan ini tidak dibenarkan dalam pengecam Go, pengkompil membuang ralat apabila ia menemuinya.

Mengapa Aksara Cina Berfungsi tetapi Bahasa Tamil Tidak

Aksara Cina biasanya dikelaskan di bawah kategori "Huruf, Lain-lain" (Lo) dalam Unikod. Ia adalah simbol kendiri yang tidak memerlukan gabungan markah untuk membentuk aksara lengkap. Itulah sebabnya pengecam seperti 消息 berfungsi dengan sempurna dalam Go.

Implikasi Praktikal

Ketidakupayaan untuk menggunakan gabungan markah dalam pengecam mempunyai implikasi yang ketara untuk skrip seperti Tamil:

Ekspresi Terhad: Tanpa menggabungkan markah, hampir mustahil untuk menulis pengecam yang bermakna dalam bahasa Tamil.
Halangan Pendidikan: Menggunakan skrip asli boleh menjadikan pembelajaran kod lebih mudah diakses, tetapi pengehadan ini menghalang kemungkinan itu, khususnya untuk bahasa yang mengikuti sistem tulisan berasaskan abugida.
Cabaran Inklusiviti: Walaupun Go menyasarkan keterangkuman dengan sokongan UTF-8nya, sekatan untuk menggabungkan markah mengecualikan banyak bahasa yang bergantung padanya.

Membungkus

Sokongan UTF-8 Go ialah langkah yang bagus untuk menjadikan pengaturcaraan lebih inklusif. Walau bagaimanapun, pengecualian penggabungan markah dalam pengecam mewujudkan halangan untuk bahasa seperti Tamil, Hindi dan Arab, di mana penggabungan markah adalah penting dalam skrip.

Sebagai pembangun dari Tamilnadu, bekerja terutamanya di Go, penemuan ini menarik dan agak mengecewakan. Ia menyerlahkan kerumitan pengantarabangsaan sebenar dalam bahasa pengaturcaraan.

Siapa yang membuat kod dalam bahasa ibunda untuk membina Produk Perisian !?!!!!

Sudah tentu! Tidak begitu jauh selain daripada wilayah Asia Timur, di mana sistem tulisan berasaskan ‘abugida’ tidak diikuti.

Dan, jelas sekali, pencipta Go tidak akan bermaksud pematuhan UTF-8 untuk 'pengekodan bahasa asli' pada mulanya. Sebabnya lebih kepada penyediaan pemprosesan ASCII yang lebih baik, penjajaran dengan piawaian web moden, pengendalian rentetan yang konsisten dan satu langkah ke arah saling kendali.

Percubaan ini hanyalah rasa ingin tahu saya untuk memahami sejauh mana kita boleh mengambil Pematuhan UTF-8 dalam Go. Sebagai seseorang yang berusaha membina sistem fintech yang boleh skala dan diedarkan dalam Go, saya mendapati penting untuk mengetahui nuansa ini.

Itu sahaja. Terima kasih kerana membaca bersama.

Selamat mengekod :) Semoga kod itu bersama anda.

Atas ialah kandungan terperinci Sokongan UTF Go: Satu Had Menarik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang lalu By DDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang lalu By DDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7862

Tutorial Java

1649

Tutorial CakePHP

1404

Tutorial Laravel

1300

Tutorial PHP

1242

Tunjukkan Lagi

Related knowledge

Apakah kelemahan debian openssl Apr 02, 2025 am 07:30 AM

OpenSSL, sebagai perpustakaan sumber terbuka yang digunakan secara meluas dalam komunikasi yang selamat, menyediakan algoritma penyulitan, kunci dan fungsi pengurusan sijil. Walau bagaimanapun, terdapat beberapa kelemahan keselamatan yang diketahui dalam versi sejarahnya, yang sebahagiannya sangat berbahaya. Artikel ini akan memberi tumpuan kepada kelemahan umum dan langkah -langkah tindak balas untuk OpenSSL dalam sistem Debian. Debianopenssl yang dikenal pasti: OpenSSL telah mengalami beberapa kelemahan yang serius, seperti: Kerentanan Pendarahan Jantung (CVE-2014-0160): Kelemahan ini mempengaruhi OpenSSL 1.0.1 hingga 1.0.1f dan 1.0.2 hingga 1.0.2 versi beta. Penyerang boleh menggunakan kelemahan ini untuk maklumat sensitif baca yang tidak dibenarkan di pelayan, termasuk kunci penyulitan, dll.

Berubah dari front-end ke pembangunan back-end, adakah lebih menjanjikan untuk belajar Java atau Golang? Apr 02, 2025 am 09:12 AM

Laluan Pembelajaran Backend: Perjalanan Eksplorasi dari Front-End ke Back-End sebagai pemula back-end yang berubah dari pembangunan front-end, anda sudah mempunyai asas Nodejs, ...

Bagaimana cara menentukan pangkalan data yang berkaitan dengan model dalam beego orm? Apr 02, 2025 pm 03:54 PM

Di bawah rangka kerja beegoorm, bagaimana untuk menentukan pangkalan data yang berkaitan dengan model? Banyak projek beego memerlukan pelbagai pangkalan data untuk dikendalikan secara serentak. Semasa menggunakan beego ...

Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO? Apr 02, 2025 pm 02:06 PM

Perpustakaan yang digunakan untuk operasi nombor terapung dalam bahasa Go memperkenalkan cara memastikan ketepatannya ...

Apakah masalah dengan thread giliran di crawler colly go? Apr 02, 2025 pm 02:09 PM

Masalah Threading Giliran di GO Crawler Colly meneroka masalah menggunakan Perpustakaan Colly Crawler dalam bahasa Go, pemaju sering menghadapi masalah dengan benang dan permintaan beratur. � ...

Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apr 02, 2025 pm 05:09 PM

Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apabila menggunakan Goland untuk Pembangunan Bahasa GO, banyak pemaju akan menghadapi tag struktur tersuai ...

Bagaimana menyelesaikan masalah penukaran jenis user_id semasa menggunakan aliran redis untuk melaksanakan beratur mesej dalam bahasa Go? Apr 02, 2025 pm 04:54 PM

Masalah menggunakan redisstream untuk melaksanakan beratur mesej dalam bahasa Go menggunakan bahasa Go dan redis ...

Cara mengkonfigurasi pengembangan automatik MongoDB pada Debian Apr 02, 2025 am 07:36 AM

Artikel ini memperkenalkan cara mengkonfigurasi MongoDB pada sistem Debian untuk mencapai pengembangan automatik. Langkah -langkah utama termasuk menubuhkan set replika MongoDB dan pemantauan ruang cakera. 1. Pemasangan MongoDB Pertama, pastikan MongoDB dipasang pada sistem Debian. Pasang menggunakan arahan berikut: SudoaptDateSudoaptInstall-ImongoDB-Org 2. Mengkonfigurasi set replika replika MongoDB MongoDB Set memastikan ketersediaan dan kelebihan data yang tinggi, yang merupakan asas untuk mencapai pengembangan kapasiti automatik. Mula MongoDB Service: sudosystemctlstartmongodsudosys

See all articles