Meilleures pratiques pour PHP et UTF-8

大家讲道理
Libérer: 2023-03-05 10:02:01
original
1240 Les gens l'ont consulté
Cet article est la deuxième partie des connaissances liées à "PHP, chaînes, encodage, UTF-8". Conclusion d'abord - Utilisez l'encodage UTF-8 dans tous les aspects de PHP .

Le niveau de langage PHP ne prend pas en charge le jeu de caractères Unicode, mais la plupart des problèmes peuvent être résolus via l'encodage UTF-8.

La meilleure pratique est de connaître clairement l'encodage d'entrée (le détecter si vous ne le savez pas), de le convertir uniformément en encodage UTF-8 en interne, et l'encodage de sortie est également uniformément encodage UTF-8.

 Comment gérer UTF-8 au niveau PHP

Lors de l'utilisation du jeu de caractères Unicode, assurez-vous d'installer l'extension mbstring et d'utiliser la fonction correspondante au lieu de la fonction de chaîne native. Par exemple, si un fichier est codé en code PHP UTF-8 et qu'il est incorrect d'utiliser la fonction strlen(), veuillez utiliser la fonction mb_strlen() à la place.

La plupart des fonctions de l'extension mbstring doivent être traitées en fonction d'un encodage (encodage interne). Veuillez vous assurer d'utiliser l'encodage UTF-8 de manière uniforme. La plupart de ces éléments peuvent être configurés dans PHP.INI.

À partir de PHP 5.6, la configuration default_charset peut remplacer mbstring.http_input, mbstring.http_output.

Une autre configuration importante est mbstring.langue. La valeur par défaut est Neutre (UTF-8).

Notez que l'encodage de fichier et l'encodage interne de l'extension mbstring ne sont pas le même concept.

En résumé :

  • Utilisez autant que possible UTF-8 pour les parties de PHP.INI qui impliquent l'extension mbstring.

  • Veuillez utiliser la fonction d'extension mbstring au lieu de la fonction d'opération de chaîne native.

  • Lorsque vous utilisez des fonctions associées, assurez-vous de comprendre l'encodage des caractères que vous utilisez. Lorsque vous utilisez les fonctions correspondantes, affichez les paramètres d'encodage UTF-8, tels que htmlentities Le troisième paramètre. de la fonction () est écrite en UTF-8.

Comment gérer UTF-8 dans les opérations d'E/S sur les fichiers

Voici un exemple, si vous souhaitez ouvrir un fichier mais ne savez pas quel encodage le contenu du fichier c'est-à-dire, que devez-vous faire ?

La meilleure pratique consiste à convertir uniformément en UTF-8 lors de l'ouverture, puis à reconvertir l'encodage d'origine après avoir modifié le contenu et à l'enregistrer dans le fichier. Regardez le code :

if ( mb_internal_encoding()!="UTF-8") {
        mb_internal_encoding("UTF-8");
}
 
$file = "file.txt"; //一个编码为gbk的中文文件
$str= file_get_contents($file);
//不管来源是什么编码,统一显示的时候转换为 UTF-8
 if (mb_check_encoding($str,"GBK"))
    $str =  mb_convert_encoding($str,"UTF-8",“GBK”);
 
$str ="修改内容";
$str =  mb_convert_encoding($str,$srcbm,"UTF-8"); //原样转回去
file_put_contents($file,$str);
Copier après la connexion

Meilleures pratiques pour Mysql et UTF-8

C'est relativement simple. Tout d'abord, assurez-vous que votre Mysql est UTF-8. Ensuite, le client Mysql conserve également UTF-8 lors de la connexion. Plus précisément en PHP, lorsque l'extension imysql ou PDO se connecte à Mysql, UTF-8 est défini comme codage de connexion. Si les deux côtés sont cohérents, vous ne rencontrerez généralement pas de problèmes.

Meilleures pratiques pour les navigateurs et UTF-8

Ceci est également relativement simple, c'est-à-dire que si votre contenu de sortie est une page Web, alors la sortie de votre traitement de chaîne doit toujours être conservée au format UTF- 8 ; en même temps, le default_charset est également clairement défini sur UTF-8 dans PHP.INI ; la balise Meta du HTML est également clairement marquée comme UTF-8 ;

Tout va bien maintenant ? Non, bien que le serveur et le navigateur permettent aux utilisateurs d'utiliser l'encodage UTF-8, le comportement de l'utilisateur n'est pas contraignant. Il peut saisir des caractères dans d'autres encodages ou télécharger des fichiers. dans un autre encodage, alors que dois-je faire ? L'encodage de l'utilisateur peut être détecté via les fonctions mb_http_input() et mb_check_encoding() puis converti en UTF-8 en interne. Assurez-vous qu'à tous les niveaux, le traitement final est un encodage UTF-8. En d’autres termes, vous avez besoin d’un moyen de savoir quel est le codage de votre entrée, et le codage de la sortie de contrôle après traitement est UTF-8.

Il est déconseillé d'utiliser la directive mbstring.encoding_translation et la fonction mb_detect_encoding(). M'a torturé pendant une demi-journée.

Meilleures pratiques pour les systèmes d'exploitation et UTF-8

En raison des systèmes d'exploitation, PHP dispose de mécanismes de traitement différents lors du traitement des noms de fichiers Unicode.

Sous Linux, le nom du fichier est toujours codé en UTF-8, tandis que dans l'environnement Windows chinois, le nom du fichier est toujours codé en GBK.

Illustrons avec un exemple :

//命令行程序函数,运行在中文版 Windows 10 操作系统 ,文件编码为 UTF-8
 function filenameexample() {
    $filename = "测试.txt" ;
    $gbk_filename = iconv("UTF-8","GBK",$filename);
    file_put_contents($gbk_filename, "测试");
    echo file_get_contents($gbk_filename);
}
 function scandirexample() {
    $arr = scandir("./tmp");
    foreach ($arr as $v) {
        if ($v == "." || $v =="..")
            continue ;
        $filename = iconv( "GBK","UTF-8",$v ) ;
        $content = file_get_contents("./tmp/" . $v );
    }
}
Copier après la connexion

Si vous ne souhaitez pas écrire un programme compatible avec Windows et Linux, vous pouvez urlencoder le nom du fichier, tel que :

function urlencodeexample() {
   $filename = "测试2.txt" ;
   $urlencodefilename = urlencode($filename) ;
   file_put_contents($urlencodefilename, "测试");
   echo file_get_contents($urlencodefilename);
}
Copier après la connexion

Lorsque vous utilisez PHP pour télécharger des fichiers via la fonction header(), vous devez également prendre en compte le navigateur et le système d'exploitation (la plupart des gens utilisent Windows). Pour Chrome, l'encodage du nom du fichier de sortie peut être UTF-8. , et Chrome convertira automatiquement le nom de fichier en encodage GBK.

Pour les versions inférieures d'IE, il hérite de l'environnement du système d'exploitation, donc si le nom du fichier téléchargé est chinois, il doit être converti en codage UTF-8, sinon l'utilisateur verra un fichier tronqué lors du téléchargement. . Expliquez par le code :

$agent=$_SERVER["HTTP_USER_AGENT"];
if(strpos($agent,'MSIE')!==false  {
    $filename = iconv("UTF-8","GBK","附件.txt");
    header("Content-Disposition: attachment; filename=\"$filename\"");
}
Copier après la connexion
Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!