Bagaimana untuk Mengira Panjang Sebenar Rentetan UTF-8 dalam C?-C++-php.cn

Bagaimana untuk Mengira Panjang Sebenar Rentetan UTF-8 dalam C?

Mary-Kate Olsen

Lepaskan： 2024-10-26 01:26:28

asal

774 orang telah melayarinya

How to Calculate the Actual Length of a UTF-8 String in C ?

Mengira Panjang Sebenar Rentetan UTF-8

Semasa bekerja dengan objek std::string yang dikodkan UTF-8, pembangun sering menghadapi percanggahan antara nilai yang dikembalikan oleh str.length() dan bilangan sebenar aksara dalam rentetan. Ini kerana str.length() hanya mengira bilangan bait dalam rentetan, tanpa mengambil kira pengekodan berbilangbait yang digunakan untuk mewakili aksara UTF-8.

Pengekodan UTF-8 mentakrifkan satu set jujukan bait digunakan untuk mewakili aksara Unicode. Setiap aksara boleh diwakili oleh satu hingga empat bait, bergantung pada titik kod Unicodenya. Urutan bait ini distrukturkan seperti berikut:

Jujukan 1-bait (0x00-0x7F): Mewakili aksara ASCII secara langsung.
2-bait jujukan (0x80-0xBF): Mewakili aksara dengan titik kod dari 0x0080 hingga 0x07FF.
Jujukan 3-bait (0xC0-0xDF): Mewakili aksara dengan titik kod dari 0x0800 0xFFFF.
Jujukan 4-bait (0xE0-0xFF): Mewakili aksara dengan titik kod daripada 0x10000 hingga 0x10FFFF.

Mengira Actual

Panjang sebenar rentetan yang dikodkan UTF-8 boleh ditentukan dengan mengira bilangan bait pertama dalam rentetan, iaitu bait yang tidak sepadan dengan corak 10xxxxxx. Corak ini mewakili bait kesinambungan, yang digunakan untuk mewakili jujukan berbilang bait.

Coretan Kod

<code class="cpp">int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;</code>

Salin selepas log masuk

Dalam kod ini, gelung while berulang pada rentetan , menambah kiraan panjang len sebanyak 1 untuk setiap bait pertama yang ditemuinya.

Atas ialah kandungan terperinci Bagaimana untuk Mengira Panjang Sebenar Rentetan UTF-8 dalam C?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!