Mengira Panjang Sebenar Rentetan UTF-8
Semasa bekerja dengan objek std::string yang dikodkan UTF-8, pembangun sering menghadapi percanggahan antara nilai yang dikembalikan oleh str.length() dan bilangan sebenar aksara dalam rentetan. Ini kerana str.length() hanya mengira bilangan bait dalam rentetan, tanpa mengambil kira pengekodan berbilangbait yang digunakan untuk mewakili aksara UTF-8.
Pengekodan UTF-8 mentakrifkan satu set jujukan bait digunakan untuk mewakili aksara Unicode. Setiap aksara boleh diwakili oleh satu hingga empat bait, bergantung pada titik kod Unicodenya. Urutan bait ini distrukturkan seperti berikut:
Mengira Actual
Panjang sebenar rentetan yang dikodkan UTF-8 boleh ditentukan dengan mengira bilangan bait pertama dalam rentetan, iaitu bait yang tidak sepadan dengan corak 10xxxxxx. Corak ini mewakili bait kesinambungan, yang digunakan untuk mewakili jujukan berbilang bait.
Coretan Kod
<code class="cpp">int len = 0; while (*s) len += (*s++ & 0xc0) != 0x80;</code>
Dalam kod ini, gelung while berulang pada rentetan , menambah kiraan panjang len sebanyak 1 untuk setiap bait pertama yang ditemuinya.
Atas ialah kandungan terperinci Bagaimana untuk Mengira Panjang Sebenar Rentetan UTF-8 dalam C?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!