Codage de caractères étrange pour le stockage des données, l'ancien script les affiche correctement, le nouveau script ne le fait pas

Question

J'essaie de réécrire un ancien site Web. Il est en persan et utilise des caractères persans/arabes. CREATEDATABASE`db`DEFAULTCHARACTERSETutf8COLLATEutf8_persian_ci;USE`db`;Presque toutes mes tables/colonnes COLLATE sont définies sur utf8_persian_ci. J'utilise codeigniter pour mon nouveau script et j'ai 'char_set'=>'utf8','dbcollat'=&g

P粉295616170 · Answer

La réponse de

deceze est très bonne, mais je peux ajouter quelques informations qui pourraient aider à gérer un grand nombre d'enregistrements sans avoir à les tester manuellement.

Si vous convertissez CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) 失败，则会打印 NULL 而不是 field_name du contenu.

J'ai donc utilisé ceci pour trouver ces enregistrements :

SELECT IFNULL(
    CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8)
    , '**************************************************')
FROM table_name

Ou ceci :

SELECT id, field_name, CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8)
FROM table_name
WHERE CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) IS NULL

UPDATE avec cette clause n'affecte que les enregistrements où la conversion a réussi :

UPDATE table_name
SET
field_name = CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8mb4 )
WHERE
CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8mb4) IS NOT NULL

P粉920835423 · Answer

En bref, parce que cette question a déjà été abordée mille fois :

PHP enregistre une chaîne, telle que "汉字"，以 UTF-8 编码。该字节为 E6 BC A2 E5 AD 97.
Il envoie cette chaîne via la connexion à la base de données latin1 définie sur .
La base de données reçoit les octets E6 BC A2 E5 AD 97，认为它们代表 latin1E6 BC A2 E5 AD 97 et pense qu'ils représentent
Caractères de stockage de base de données
æ¡ ¡ ¿ Li>

Le même processus inversé fait que PHP reçoit les mêmes octets et les traite ensuite comme UTF-8. L'aller-retour fonctionne très bien pour PHP, même si la base de données ne gère pas les caractères comme elle le devrait.

Le problème ici est donc que la connexion à la base de données n'est pas configurée correctement lorsque les données sont saisies dans la base de données. Vous devez convertir les données de la base de données en caractères corrects. Essayez ceci :

SELECT CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) FROM table_name

utf8 不是您所需要的，请尝试一下。如果有效，请将其更改为 UPDATEPeut-être que utf8 n'est pas ce dont vous avez besoin, essayez-le. Si cela fonctionne, remplacez-le par une instruction 🎜UPDATE pour mettre à jour les données de manière permanente. 🎜