file_get_contents() が UTF-8 文字を中断する
この問題は、UTF-8 エンコードを使用して外部サーバーから HTML をロードするときに発生します。 ľ、š、č、ť、ž などの文字が破損し、無効な文字に置き換えられます。
問題の根本
file_get_contents() 関数が発生している可能性があります。エンコードの問題。デフォルトでは、データは ASCII として解釈され、UTF-8 文字を正しく処理できません。
提案された解決策
これを解決するには、別のエンコード方法の使用を検討してください。 .
1.手動エンコーディング変換
mb_convert_encoding() 関数を使用して、取得した HTML を UTF-8 に変換します。
$html = file_get_contents('http://example.com/foreign.html'); $utf8_html = mb_convert_encoding($html, 'UTF-8', mb_detect_encoding($html, 'UTF-8', true));
2.出力エンコーディング
次の行をスクリプトに追加して、出力が適切にエンコードされていることを確認します。
header('Content-Type: text/html; charset=UTF-8');
3. HTML エンティティの変換
出力する前に、取得した HTML を HTML エンティティに変換します。
$html = file_get_contents('http://example.com/foreign.html'); $html_entities = htmlentities($html, ENT_COMPAT, 'UTF-8'); echo $html_entities;
4. JSON デコード
外部 HTML が JSON として保存されている場合は、JSON クラスを使用してデコードします。
$json = file_get_contents('http://example.com/foreign.html'); $decoded_json = json_decode($json, true); $html = $decoded_json['html'];
これらの手法を利用すると、file_get_contents によって引き起こされるエンコードの問題を回避できます。 () を実行し、UTF-8 文字が適切に表示されることを確認します。
以上が「file_get_contents()」を使用すると UTF-8 文字が破損するのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。