Menentukan Panjang Rentetan Dikodkan UTF-8
Dalam C , pengekodan std::string mungkin berbeza-beza dan menggunakan fungsi length() pada rentetan yang dikodkan UTF-8 boleh menghasilkan perwakilan yang tidak tepat bagi panjang sebenarnya. Untuk memastikan panjang yang betul, pertimbangkan corak jujukan bait berikut:
0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x00000800 - 0x0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx 0x00010000 - 0x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
Untuk mengira panjang sebenar rentetan yang dikodkan UTF-8:
Coretan kod berikut menggambarkan pelaksanaan:
<code class="cpp">int len = 0; const char *s = str.c_str(); // convert to C-style string while (*s) len += (*s++ & 0xc0) != 0x80;</code>
Atas ialah kandungan terperinci Bagaimana untuk Menentukan Dengan Tepat Panjang Rentetan Berkod UTF-8 dalam C?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!