Détermination de la longueur de la chaîne codée en UTF-8
En C, l'encodage std::string peut varier et l'utilisation de la fonction length() sur une chaîne codée en UTF-8 peut donner une représentation inexacte de sa longueur réelle. Pour déterminer la longueur correcte, considérez les modèles de séquence d'octets suivants :
0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x00000800 - 0x0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx 0x00010000 - 0x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
Pour calculer la longueur réelle d'une chaîne codée en UTF-8 :
L'extrait de code suivant illustre l'implémentation :
<code class="cpp">int len = 0; const char *s = str.c_str(); // convert to C-style string while (*s) len += (*s++ & 0xc0) != 0x80;</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!