curl と file_get_contents を使用して文字化けした Web ページをクロールする解決策

巴扎黑
リリース: 2016-11-09 11:23:40
オリジナル
1221 人が閲覧しました

今日、curl_init関数を使用してSohuのWebページをクロールしたところ、分析の結果、サーバーがgzip圧縮機能をオンにしていることがわかりました。 gzip を解析するために関数curl_setopt に複数のオプション CURLOPT_ENCODING を追加するだけで、正しくデコードできます。


また、キャプチャされた Web ページが GBK でエンコードされているが、スクリプトが実際には utf-8 でエンコードされている場合、キャプチャされた Web ページは関数 mb_convert_encoding を使用して変換する必要があります。

るれーるー


関連ラベル:
php
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!