Go 的 UTF 支持:一个有趣的限制
我最近一直在探索 Go 的 UTF-8 支持,并且很好奇它在代码中处理非拉丁脚本的效果如何。
使用 UTF-8
Go 源文件默认采用 UTF-8 编码。这意味着理论上您可以在变量名称、函数名称等中使用 Unicode 字符。
例如,在官方的 Go Playground 样板代码中,你可能会遇到这样的代码:
package main import "fmt" func main() { 消息 := "Hello, World!" fmt.Println(消息) }
这里的“消息”是中文“消息”的意思。由于其 Unicode 支持,Go 可以毫无问题地处理这个问题。这种功能是 Go 在中国和日本等国家流行的原因之一——开发人员可以使用对自己语言有意义的标识符来编写代码。你可能不会相信,但用母语编写代码在中国非常受欢迎,我喜欢它。
尝试使用泰米尔语标识符
当然,我想用我的母语泰米尔语尝试一下。
这是我写的一个简单示例:
package main import "fmt" func main() { எண்ணிக்கை := 42 // "எண்ணிக்கை" means "number" fmt.Println("Value:", எண்ணிக்கை) }
乍一看,这似乎很简单,可以运行而不会出现任何错误。
但是,当我尝试编译代码时,我遇到了错误
./prog.go:6:11: invalid character U+0BCD '்' in identifier ./prog.go:6:17: invalid character U+0BBF 'ி' in identifier ./prog.go:6:23: invalid character U+0BCD '்' in identifier ./prog.go:6:29: invalid character U+0BC8 'ை' in identifier ./prog.go:7:33: invalid character U+0BCD '்' in identifier ./prog.go:7:39: invalid character U+0BBF 'ி' in identifier ./prog.go:7:45: invalid character U+0BCD '்' in identifier ./prog.go:7:51: invalid character U+0BC8 'ை' in identifier
了解泰米尔语组合标记的问题
要了解正在发生的事情,有必要了解一些泰米尔语脚本的工作原理。
泰米尔语是一种abugida——一种将每个辅音-元音序列写成一个单元的书写系统。在 Unicode 中,这通常涉及将基本辅音字符与表示元音或其他修饰符的一个或多个组合标记组合起来。
例如:
泰米尔语字母க (U 0B95) 代表辅音“ka”
要表示“ki”,您可以将 க 与元音符号 ி (U 0BBF) 组合起来,得到 கி。
元音符号 ி 是一个组合标记,在 Unicode 中被明确归类为“非空格标记”。
这就是问题出现的地方。
Go 的语言规范允许在标识符中使用 Unicode 字母,但排除组合标记。具体来说,标识符可以包含分类为“字母”的字符(类别 Lu、Ll、Lt、Lm、Lo 或 Nl)和数字,但不能包含组合标记(类别 Mn、Mc、Me)。
泰米尔语组合标记示例
让我们看看泰米尔语字符是如何形成的:
独立辅音:க (U 0B95) - Go 标识符中允许使用。
辅音元音符号:கா (U 0B95 U 0BBE) - 不允许,因为ா (U 0BBE) 是组合标记 (Mc)。
辅音元音符号:கி (U 0B95 U 0BBF) - 不允许,因为ி (U 0BBF) 是组合标记 (Mn)。
辅音元音符号:கூ (U 0B95 U 0BC2) - 不允许,因为ூ (U 0BC2) 是组合标记 (Mc)。
标识符எண்ணிக்கை(“数字”)中,字符包含组合标记:
எ (U 0B8E) - 信,允许。
ண் (U 0BA3 U 0BCD) - 由ண (U 0BA3) 和 virama ் (U 0BCD) 组成,组合标记 (Mn)。
ண (U 0BA3) - 信,允许。
ிக்கை - 包含组合标记,如 ி (U 0BBF) 和 ை (U 0BC8)。
由于 Go 标识符中不允许使用这些组合标记,因此编译器在遇到它们时会抛出错误。
为什么汉字可以用而泰米尔语不行
汉字在 Unicode 中通常被归类为“字母、其他”(Lo) 类别。它们是独立的符号,不需要组合标记来形成完整的字符。这就是为什么像消息这样的标识符在 Go 中完美工作的原因。
实际意义
无法在标识符中使用组合标记对于泰米尔语等脚本具有重大影响:
表达能力有限:如果不组合标记,几乎不可能用泰米尔语编写有意义的标识符。
教育障碍:使用本机脚本可以使学习编码变得更容易,但这些限制阻碍了这种可能性,特别是对于遵循基于 abugida 的书写系统的语言。
包容性挑战:虽然 Go 的目标是通过 UTF-8 支持实现包容性,但组合标记的限制排除了许多依赖它们的语言。
总结
Go 的 UTF-8 支持是朝着使编程更具包容性迈出的一大步。然而,在标识符中排除组合标记对泰米尔语、印地语和阿拉伯语等语言造成了障碍,在这些语言中,组合标记是脚本的组成部分。
作为一名来自泰米尔纳德邦、主要从事 Go 工作的开发人员,这个发现既令人兴奋又有点令人失望。它强调了编程语言真正国际化的复杂性。
谁用母语编码来构建软件产品!?!!!!
绝对!与东亚地区不同,那里不遵循基于“abugida”的书写系统。
而且,显然,Go 的创建者一开始就不会打算将 UTF-8 合规性用于“本地语言编码”。原因更多是为了提供更好的 ASCII 处理、与现代 Web 标准保持一致、一致的字符串处理以及迈向互操作性的一步。
这次尝试只是我的好奇心,想了解我们能在 Go 中实现 UTF-8 合规性到什么程度。作为致力于用 Go 构建可扩展的分布式金融科技系统的人,我发现了解这些细微差别至关重要。
就是这样。感谢您的阅读。
快乐编码:)愿代码与你同在。
以上是Go 的 UTF 支持:一个有趣的限制的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

OpenSSL,作为广泛应用于安全通信的开源库,提供了加密算法、密钥和证书管理等功能。然而,其历史版本中存在一些已知安全漏洞,其中一些危害极大。本文将重点介绍Debian系统中OpenSSL的常见漏洞及应对措施。DebianOpenSSL已知漏洞:OpenSSL曾出现过多个严重漏洞,例如:心脏出血漏洞(CVE-2014-0160):该漏洞影响OpenSSL1.0.1至1.0.1f以及1.0.2至1.0.2beta版本。攻击者可利用此漏洞未经授权读取服务器上的敏感信息,包括加密密钥等。

后端学习路径:从前端转型到后端的探索之旅作为一名从前端开发转型的后端初学者,你已经有了nodejs的基础,...

在BeegoORM框架下,如何指定模型关联的数据库?许多Beego项目需要同时操作多个数据库。当使用Beego...

Go语言中用于浮点数运算的库介绍在Go语言(也称为Golang)中,进行浮点数的加减乘除运算时,如何确保精度是�...

Go爬虫Colly中的Queue线程问题探讨在使用Go语言的Colly爬虫库时,开发者常常会遇到关于线程和请求队列的问题。�...

Go语言中使用RedisStream实现消息队列时类型转换问题在使用Go语言与Redis...

Go语言中字符串打印的区别:使用Println与string()函数的效果差异在Go...

GoLand中自定义结构体标签不显示怎么办?在使用GoLand进行Go语言开发时,很多开发者会遇到自定义结构体标签在�...
