Le niveau de langage PHP ne prend pas en charge le jeu de caractères Unicode, mais la plupart des problèmes peuvent être résolus via l'encodage UTF-8.
La meilleure pratique est de connaître clairement l'encodage d'entrée (le détecter si vous ne le savez pas), de le convertir uniformément en encodage UTF-8 en interne, et l'encodage de sortie est également uniformément encodage UTF-8.
Lors de l'utilisation du jeu de caractères Unicode, assurez-vous d'installer l'extension mbstring et d'utiliser la fonction correspondante au lieu de la fonction de chaîne native. Par exemple, si un fichier est codé en code PHP UTF-8 et qu'il est incorrect d'utiliser la fonction strlen(), veuillez utiliser la fonction mb_strlen() à la place.
La plupart des fonctions de l'extension mbstring doivent être traitées en fonction d'un encodage (encodage interne). Veuillez vous assurer d'utiliser l'encodage UTF-8 de manière uniforme. La plupart de ces éléments peuvent être configurés dans PHP.INI.
À partir de PHP 5.6, la configuration default_charset peut remplacer mbstring.http_input, mbstring.http_output.
Une autre configuration importante est mbstring.langue. La valeur par défaut est Neutre (UTF-8).
Notez que l'encodage de fichier et l'encodage interne de l'extension mbstring ne sont pas le même concept.
En résumé :
Utilisez autant que possible UTF-8 pour les parties de PHP.INI qui impliquent l'extension mbstring.
Veuillez utiliser la fonction d'extension mbstring au lieu de la fonction d'opération de chaîne native.
Lorsque vous utilisez des fonctions associées, assurez-vous de comprendre l'encodage des caractères que vous utilisez. Lorsque vous utilisez les fonctions correspondantes, affichez les paramètres d'encodage UTF-8, tels que htmlentities Le troisième paramètre. de la fonction () est écrite en UTF-8.
Voici un exemple, si vous souhaitez ouvrir un fichier mais ne savez pas quel encodage le contenu du fichier c'est-à-dire, que devez-vous faire ?
La meilleure pratique consiste à convertir uniformément en UTF-8 lors de l'ouverture, puis à reconvertir l'encodage d'origine après avoir modifié le contenu et à l'enregistrer dans le fichier. Regardez le code :
if ( mb_internal_encoding()!="UTF-8") { mb_internal_encoding("UTF-8"); } $file = "file.txt"; //一个编码为gbk的中文文件 $str= file_get_contents($file); //不管来源是什么编码,统一显示的时候转换为 UTF-8 if (mb_check_encoding($str,"GBK")) $str = mb_convert_encoding($str,"UTF-8",“GBK”); $str ="修改内容"; $str = mb_convert_encoding($str,$srcbm,"UTF-8"); //原样转回去 file_put_contents($file,$str);
C'est relativement simple. Tout d'abord, assurez-vous que votre Mysql est UTF-8. Ensuite, le client Mysql conserve également UTF-8 lors de la connexion. Plus précisément en PHP, lorsque l'extension imysql ou PDO se connecte à Mysql, UTF-8 est défini comme codage de connexion. Si les deux côtés sont cohérents, vous ne rencontrerez généralement pas de problèmes.
Ceci est également relativement simple, c'est-à-dire que si votre contenu de sortie est une page Web, alors la sortie de votre traitement de chaîne doit toujours être conservée au format UTF- 8 ; en même temps, le default_charset est également clairement défini sur UTF-8 dans PHP.INI ; la balise Meta du HTML est également clairement marquée comme UTF-8 ;
Tout va bien maintenant ? Non, bien que le serveur et le navigateur permettent aux utilisateurs d'utiliser l'encodage UTF-8, le comportement de l'utilisateur n'est pas contraignant. Il peut saisir des caractères dans d'autres encodages ou télécharger des fichiers. dans un autre encodage, alors que dois-je faire ? L'encodage de l'utilisateur peut être détecté via les fonctions mb_http_input() et mb_check_encoding() puis converti en UTF-8 en interne. Assurez-vous qu'à tous les niveaux, le traitement final est un encodage UTF-8. En d’autres termes, vous avez besoin d’un moyen de savoir quel est le codage de votre entrée, et le codage de la sortie de contrôle après traitement est UTF-8.
Il est déconseillé d'utiliser la directive mbstring.encoding_translation et la fonction mb_detect_encoding(). M'a torturé pendant une demi-journée.
En raison des systèmes d'exploitation, PHP dispose de mécanismes de traitement différents lors du traitement des noms de fichiers Unicode.
Sous Linux, le nom du fichier est toujours codé en UTF-8, tandis que dans l'environnement Windows chinois, le nom du fichier est toujours codé en GBK.
Illustrons avec un exemple :
//命令行程序函数,运行在中文版 Windows 10 操作系统 ,文件编码为 UTF-8 function filenameexample() { $filename = "测试.txt" ; $gbk_filename = iconv("UTF-8","GBK",$filename); file_put_contents($gbk_filename, "测试"); echo file_get_contents($gbk_filename); } function scandirexample() { $arr = scandir("./tmp"); foreach ($arr as $v) { if ($v == "." || $v =="..") continue ; $filename = iconv( "GBK","UTF-8",$v ) ; $content = file_get_contents("./tmp/" . $v ); } }
Si vous ne souhaitez pas écrire un programme compatible avec Windows et Linux, vous pouvez urlencoder le nom du fichier, tel que :
function urlencodeexample() { $filename = "测试2.txt" ; $urlencodefilename = urlencode($filename) ; file_put_contents($urlencodefilename, "测试"); echo file_get_contents($urlencodefilename); }
Lorsque vous utilisez PHP pour télécharger des fichiers via la fonction header(), vous devez également prendre en compte le navigateur et le système d'exploitation (la plupart des gens utilisent Windows). Pour Chrome, l'encodage du nom du fichier de sortie peut être UTF-8. , et Chrome convertira automatiquement le nom de fichier en encodage GBK.
Pour les versions inférieures d'IE, il hérite de l'environnement du système d'exploitation, donc si le nom du fichier téléchargé est chinois, il doit être converti en codage UTF-8, sinon l'utilisateur verra un fichier tronqué lors du téléchargement. . Expliquez par le code :
$agent=$_SERVER["HTTP_USER_AGENT"]; if(strpos($agent,'MSIE')!==false { $filename = iconv("UTF-8","GBK","附件.txt"); header("Content-Disposition: attachment; filename=\"$filename\""); }