Fonction strlen() et fonction mb_strlen()
En PHP, la fonction strlen() renvoie la longueur de la chaîne. Le prototype de la fonction est le suivant :
int strlen(string string_input);
Le paramètre string_input est la chaîne à traiter.
La fonction strlen() renvoie la longueur d'octet occupée par la chaîne. Une lettre anglaise, un chiffre et divers symboles occupent tous un octet et leur longueur est de 1. Un caractère midi occupe deux octets, donc la longueur d'un caractère midi est de 2. Par exemple,
<?php echo strlen("www.php.cn"); echo strlen("PHP中文网"); ?>
Le résultat d'exécution de "echo strlen("www.php.cn");": 15 Le résultat d'exécution de
"echo strlen("PHP Chinese Network ");" :15
Voici une question, un caractère chinois n'occupe-t-il pas 2 octets ? « Sanzhi Development Network » comporte clairement cinq caractères chinois, alors comment le résultat pourrait-il être 15 ?
La raison est ici : lors du calcul de strlen(), pour un caractère chinois UTF-8, il sera traité comme ayant une longueur de 3. Lorsqu’il y a un mélange de chinois et d’anglais, comment calculer avec précision la longueur de la chaîne ? Ici, une autre fonction mb_strlen() doit être introduite. L'utilisation de la fonction mb_strlen() est presque la même que celle de strlen(), sauf qu'il existe un paramètre supplémentaire qui spécifie l'encodage du jeu de caractères. Le prototype de la fonction est :
int mb_strlen(string string_input, string encode);
La fonction de longueur de chaîne intégrée de PHP strlen ne peut pas gérer correctement les chaînes chinoises. Elle obtient uniquement le nombre d'octets occupés par la chaîne. Pour l'encodage chinois GB2312, la valeur obtenue par strlen est le double du nombre de caractères chinois, tandis que pour le chinois encodé en UTF-8, la différence est de trois fois (sous l'encodage UTF-8, un caractère chinois occupe 3 octets). Par conséquent, le code suivant peut calculer avec précision la longueur des chaînes chinoises :
<?php $str = "三知sunchis开发网"; echo strlen($str)."<br>"; //结果:22 echo mb_strlen($str,"UTF8")."<br>"; //结果:12 $strlen = (strlen($str)+mb_strlen($str,"UTF8"))/2; echo $strlen; //结果:17 ?>
Analyse du principe : lors du calcul de
strlen(), la longueur des caractères chinois traités en UTF-8 est de 3. , Par conséquent, la longueur du "Sanzhi Sunchis Development Network" est de 5×3 7×1=22
Lors du calcul de mb_strlen, si le code interne est sélectionné comme UTF8, un caractère chinois sera calculé comme une longueur de 1, donc La longueur de "Sunchis Development Network" est de 5×1 7×1=12
Le reste est un pur problème mathématique, je n'entrerai donc pas dans les détails ici...
Remarque : Pour mb_strlen($ str,'UTF-8'), si le deuxième paramètre est omis, l'encodage interne de PHP sera utilisé. L'encodage interne peut être obtenu via la fonction mb_internal_encoding(). Il est à noter que mb_strlen n'est pas une fonction principale de PHP Avant de l'utiliser, vous devez vous assurer que php_mbstring.dll est chargé dans php.ini, c'est-à-dire vous assurer que la ligne "extension=php_mbstring.dll" existe. et n'est pas commenté, sinon ce sera un problème de fonction indéfini.
Pour plus de calcul de longueur de chaîne PHP - introduction à l'utilisation de la fonction strlen() et articles connexes, veuillez faire attention au site Web PHP chinois !