Go の UTF サポート: 興味深い制限-Golang-php.cn

ホームページ

バックエンド開発

Golang

Go の UTF サポート: 興味深い制限

Susan Sarandon

Nov 09, 2024 am 12:09 AM

私は最近 Go の UTF-8 サポートを調査しており、コード内で非ラテン語スクリプトがどの程度適切に処理されるかについて興味がありました。

UTF-8 を使用してください

Go ソースファイルはデフォルトで UTF-8 でエンコードされます。これは、理論上、変数名や関数名などに Unicode 文字を使用できることを意味します。

たとえば、公式 Go プレイグラウンドの定型コードでは、次のようなコードが見つかる可能性があります。

ここで、消息は中国語で「メッセージ」を意味します。 Go は Unicode サポートのおかげで、これを問題なく処理します。この機能は、Go が中国や日本などの国で人気を集めている理由の 1 つであり、開発者は自国の言語で意味のある識別子を使用してコードを作成できます。信じられないかもしれませんが、中国では母国語でコードを書くことが非常に人気があり、私はそれが大好きです。

タミル語識別子を使用しようとしています

当然、母国語であるタミル語でこれを試してみたかったのです。

これが私が書いた簡単な例です:

一見すると、これはエラーなしで実行できる簡単なように見えます。

しかし、コードをコンパイルしようとするとエラーが発生しました

タミル語結合記号の問題を理解する

何が起こっているのかを理解するには、タミル語文字がどのように機能するかを少し知ることが不可欠です。

タミル語は アブギダ、つまり各子音と母音のシーケンスが単位として書かれる表記法です。 Unicode では、これには多くの場合、基本子音文字と、母音やその他の修飾子を表す 1 つ以上の結合記号を組み合わせることが含まれます。

例:

タミル語の文字 க (U 0B95) は子音「ka」を表します
「き」を表すには、க と母音記号 ி (U 0BBF) を組み合わせて、கி となります。
母音記号 ி は結合記号であり、特に Unicode では「非スペース記号」として分類されます。

ここで問題が発生します。

Go の言語仕様では、識別子に Unicode 文字を使用できますが、結合記号は除外されています。具体的には、識別子には、「文字」として分類される文字 (カテゴリ Lu、Ll、Lt、Lm、Lo、または Nl) と数字を含めることができますが、結合記号 (カテゴリ Mn、Mc、Me) は含めることはできません。

タミル語での記号の組み合わせの例

タミル文字がどのように形成されるかを見てみましょう:

スタンドアロン子音: க (U 0B95) - Go 識別子で許可されます。
子音母音記号: கா (U 0B95 U 0BBE) - ா (U 0BBE) は結合記号 (Mc) であるため許可されません。
子音母音記号: கி (U 0B95 U 0BBF) - ி (U 0BBF) は結合記号 (Mn) であるため許可されません。
子音母音記号: கூ (U 0B95 U 0BC2) - ூ (U 0BC2) は結合記号 (Mc) であるため許可されません。

識別子 எண்ணிக்கை (「数値」) の文字には結合記号が含まれます。

எ (U 0B8E) - 手紙、許可されています。
ண் (U 0BA3 U 0BCD) - ண (U 0BA3) と virama ் (U 0BCD)、結合記号 (Mn) によって形成されます。
ண (U 0BA3) - 手紙、許可されています。
ிக்கை - ி (U 0BBF) や ை (U 0BC8) などの結合記号が含まれます。

これらの結合マークは Go 識別子では許可されないため、コンパイラーはそれらを検出するとエラーをスローします。

なぜ漢字は機能するのにタミル語は機能しないのか

漢字は通常、Unicode では「文字、その他」(Lo) カテゴリに分類されます。これらはスタンドアロンのシンボルであり、完全な文字を形成するためにマークを組み合わせる必要はありません。これが、消息のような識別子が Go で完璧に機能する理由です。

実際的な意味

識別子で結合マークを使用できないことは、タミル語のような文字に重大な影響を及ぼします。

表現力の制限: マークを結合しないと、タミル語で意味のある識別子を記述することはほぼ不可能です。
教育上の障壁: ネイティブスクリプトを使用するとコードの学習が容易になりますが、特に abugida ベースの書記体系に従う言語では、これらの制限がその可能性を妨げます。
包括性の課題: Go は UTF-8 サポートにより包括性を目指していますが、マークの結合に関する制限により、マークに依存する多くの言語が除外されます。

まとめ

Go の UTF-8 サポートは、プログラミングをより包括的なものにするための大きな一歩です。ただし、識別子で結合マークを除外すると、タミル語、ヒンディー語、アラビア語など、結合マークがスクリプトに不可欠な言語では障壁が生じます。

タミルナドゥ出身の開発者として、主に Go で働いていましたが、この発見は刺激的であり、少し残念でもありました。これは、プログラミング言語における真の国際化の複雑さを浮き彫りにしています。

ソフトウェア製品を構築するために母国語でコーディングするのは誰ですか?!!!!

もちろんです！東アジア地域は例外ではなく、「アブギダ」ベースの文字体系が採用されていません。

そして明らかに、Go の作成者は、最初から「ネイティブ言語コーディング」に UTF-8 準拠を意図していなかったでしょう。その理由は、より優れた ASCII 処理、最新の Web 標準との整合、一貫した文字列処理、および相互運用性への一歩を提供することにありました。

この試みは、Go で UTF-8 準拠をどこまで実現できるかを理解するという私の単なる好奇心でした。 Go でスケーラブルな分散フィンテックシステムの構築に取り組んでいる者として、私はこれらのニュアンスを認識することが不可欠であると感じました。

以上です。最後までお読みいただきありがとうございます。

コーディングを楽しんでください :) コードがあなたとともにありますように。

以上がGo の UTF サポート: 興味深い制限の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7926

Java チュートリアル

1652

CakePHP チュートリアル

1411

Laravel チュートリアル

1303

PHP チュートリアル

1250

Related knowledge

Golangの目的：効率的でスケーラブルなシステムの構築 Apr 09, 2025 pm 05:17 PM

GO言語は、効率的でスケーラブルなシステムの構築においてうまく機能します。その利点には次のものがあります。1。高性能：マシンコードにコンパイルされ、速度速度が速い。 2。同時プログラミング：ゴルチンとチャネルを介してマルチタスクを簡素化します。 3。シンプルさ：簡潔な構文、学習コストとメンテナンスコストの削減。 4。クロスプラットフォーム：クロスプラットフォームのコンパイル、簡単な展開をサポートします。

Golang and C：Concurrency vs. Raw Speed Apr 21, 2025 am 12:16 AM

Golangは並行性がCよりも優れていますが、Cは生の速度ではGolangよりも優れています。 1）Golangは、GoroutineとChannelを通じて効率的な並行性を達成します。これは、多数の同時タスクの処理に適しています。 2）Cコンパイラの最適化と標準ライブラリを介して、極端な最適化を必要とするアプリケーションに適したハードウェアに近い高性能を提供します。

パフォーマンスレース：ゴラン対c Apr 16, 2025 am 12:07 AM

GolangとCにはそれぞれパフォーマンス競争において独自の利点があります。1）Golangは、高い並行性と迅速な発展に適しており、2）Cはより高いパフォーマンスと微細な制御を提供します。選択は、プロジェクトの要件とチームテクノロジースタックに基づいている必要があります。

Golang vs. Python：パフォーマンスとスケーラビリティ Apr 19, 2025 am 12:18 AM

Golangは、パフォーマンスとスケーラビリティの点でPythonよりも優れています。 1）Golangのコンピレーションタイプの特性と効率的な並行性モデルにより、高い並行性シナリオでうまく機能します。 2）Pythonは解釈された言語として、ゆっくりと実行されますが、Cythonなどのツールを介してパフォーマンスを最適化できます。

Golang vs. Python：重要な違いと類似点 Apr 17, 2025 am 12:15 AM

GolangとPythonにはそれぞれ独自の利点があります。Golangは高性能と同時プログラミングに適していますが、PythonはデータサイエンスとWeb開発に適しています。 Golangは同時性モデルと効率的なパフォーマンスで知られていますが、Pythonは簡潔な構文とリッチライブラリエコシステムで知られています。

CとGolang：パフォーマンスが重要な場合 Apr 13, 2025 am 12:11 AM

Cは、ハードウェアリソースと高性能の最適化が必要なシナリオにより適していますが、Golangは迅速な開発と高い並行性処理が必要なシナリオにより適しています。 1.Cの利点は、ハードウェア特性と高い最適化機能に近いものにあります。これは、ゲーム開発などの高性能ニーズに適しています。 2.Golangの利点は、その簡潔な構文と自然な並行性サポートにあり、これは高い並行性サービス開発に適しています。

Golangの影響：速度、効率、シンプルさ Apr 14, 2025 am 12:11 AM

speed、効率、およびシンプル性をspeedsped.1）speed：gocompilesquilesquicklyandrunseffictient、理想的なlargeprojects.2）効率：等系dribribraryreducesexexternaldedenciess、開発効果を高める3）シンプルさ：