儲存資料的奇怪字元編碼，舊腳本顯示它們很好，新腳本卻沒有

Question

我正在嘗試重寫一個舊網站。它是波斯語，使用波斯/阿拉伯字符。 CREATEDATABASE`db`DEFAULTCHARACTERSETutf8COLLATEutf8_persian_ci;USE`db`;幾乎所有我的表/列COLLATE都設定為utf8_persian_ci我正在為我的新腳本使用codeigniter，並且我已經'char_set'=>'gcollf8','dbcollat​​at'

P粉295616170 · Answer

deceze的答案非常好，但我可以添加一些信息，這些信息可能有助於處理大量記錄，而無需手動測試它們.

如果轉換 CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) 失敗，則會列印 NULL 而不是 field_name 內容。

所以我用這個來找那些記錄：

SELECT IFNULL(
    CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8)
    , '**************************************************')
FROM table_name

或這個：

SELECT id, field_name, CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8)
FROM table_name
WHERE CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) IS NULL

帶有該子句的 UPDATE 僅影響轉換成功的記錄：

UPDATE table_name
SET
field_name = CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8mb4 )
WHERE
CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8mb4) IS NOT NULL

P粉920835423 · Answer

簡而言之，因為這個問題之前已經討論過一千次了：

PHP 保存一個字串，例如 "漢字"，以 UTF-8 編碼。該位元組為 E6 BC A2 E5 AD 97。
它透過設定為 latin1 的資料庫連線發送此字串。
資料庫收到位元組 E6 BC A2 E5 AD 97，認為它們代表 latin1 字元。
資料庫儲存字元 æ¡ ¡ ¿李>
相反的相同過程使 PHP 接收相同的字節，然後將其視為 UTF-8。儘管資料庫沒有按應有的方式處理字符，但往返對於 PHP 來說運作得很好。

所以這裡的問題是資料錄入資料庫時資料庫連線設定不正確。您必須將資料庫中的資料轉換為正確的字元。試試這個：

SELECT CONVERT(BINARY CONVERT(field_name USING latin1) USING utf8) FROM table_name

也許 utf8 不是您所需要的，請試試看。如果有效，請將其變更為 UPDATE 語句以永久更新資料。