确定 UTF-8 编码字符串长度
在 C 中,std::string 编码可能会有所不同,并且使用 length() 函数UTF-8 编码的字符串可能会产生不准确的实际长度表示。要确定正确的长度,请考虑以下字节序列模式:
0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x00000800 - 0x0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx 0x00010000 - 0x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
要计算 UTF-8 编码字符串的实际长度:
以下代码片段说明了实现:
<code class="cpp">int len = 0; const char *s = str.c_str(); // convert to C-style string while (*s) len += (*s++ & 0xc0) != 0x80;</code>
以上是如何在C中准确确定UTF-8编码字符串的长度?的详细内容。更多信息请关注PHP中文网其他相关文章!