確定UTF-8 編碼字串長度
在C 中,std::string 編碼可能會有所不同,並且使用length () 函數UTF-8 編碼的字串可能會產生不準確的實際長度表示。要確定正確的長度,請考慮以下位元組序列模式:
0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x00000800 - 0x0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx 0x00010000 - 0x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
要計算UTF-8 編碼字串的實際長度:
以下程式碼片段說明了實作:
<code class="cpp">int len = 0; const char *s = str.c_str(); // convert to C-style string while (*s) len += (*s++ & 0xc0) != 0x80;</code>
以上是如何在C中準確確定UTF-8編碼字串的長度?的詳細內容。更多資訊請關注PHP中文網其他相關文章!