この記事では、PHP コードを使用して Web ページで gzip 圧縮が有効になっているかどうかを確認する方法を紹介します。必要な場合は参考にしてください。
Webページを収集する際、file_get_contentsで取得したWebページをローカルに保存するとレスポンスヘッダーにContent-Encoding: gzipが含まれていたが、ブラウザで見ると正常でした。 このことから、Web サイトでは gzip がオンになっており、file_get_contents は解凍されたページではなく圧縮されたページを取得すると判断できます (gzip で圧縮されていない Web ページを直接取得するには、Web ページをリクエストするときに file_get_contents が対応するパラメーターを持ってくるべきなのでしょうか?) ファイルの最初の 2 バイトを読み取ることでファイルの種類を判断できることを以前に見てきました。 gzip 圧縮された Web ページ (gbk エンコード) の最初の 2 バイトは 1F 8B で、Web ページが gzip 圧縮されているかどうかを判断するために使用できます。 例: りー |