php file_get_contents抓取Gzip网页乱码的三种解决方法
用 file_get_contents() 函数抓取网页会发生乱码现象。有两个原因会导致乱码,一个是编码问题,一个是目标页面开了Gzip,下面说的就是开了Gzip功能如何才能不乱码的方法
把抓取到的内容转下编码即可($content=iconv("GBK", "UTF-8//IGNORE", $content);),我们这里讨论的是如何抓取开了Gzip的页面。怎么判断呢?获取的头部当中有Content-Encoding: gzip说明内容是GZIP压缩的。用FireBug看一下就知道页面开了gzip没有。下面是用firebug查看我的博客的头信息,Gzip是开了的。
请求头信息原始头信息
Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Encoding gzip, deflate Accept-Language zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3 Connection keep-alive Cookie __utma=225240837.787252530.1317310581.1335406161.1335411401.1537; __utmz=225240837.1326850415.887.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BB%BB%E4%BD%95%E9%A1%B9%E7%9B%AE%E9%83%BD%E4%B8%8D%E4%BC%9A%E9%82%A3%E4%B9%88%E7%AE%80%E5%8D%95%20site%3Awww.nowamagic.net; PHPSESSID=888mj4425p8s0m7s0frre3ovc7; __utmc=225240837; __utmb=225240837.1.10.1335411401 Host www.nowamagic.net User-Agent Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0
下面介绍一些解决方案:
1. 使用自带的zlib库
如果服务器已经装了zlib库,用下面的代码可以轻易解决乱码问题。
$data = file_get_contents("compress.zlib://".$url);
2. 使用CURL代替file_get_contents
function curl_get($url, $gzip=false){ $curl = curl_init($url); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10); if($gzip) curl_setopt($curl, CURLOPT_ENCODING, "gzip"); // 关键在这里 $content = curl_exec($curl); curl_close($curl); return $content; }
3. 使用gzip解压函数
function gzdecode($data) { $len = strlen($data); if ($len < 18 || strcmp(substr($data,0,2),"\x1f\x8b")) { return null; // Not GZIP format (See RFC 1952) } $method = ord(substr($data,2,1)); // Compression method $flags = ord(substr($data,3,1)); // Flags if ($flags & 31 != $flags) { // Reserved bits are set -- NOT ALLOWED by RFC 1952 return null; } // NOTE: $mtime may be negative (PHP integer limitations) $mtime = unpack("V", substr($data,4,4)); $mtime = $mtime[1]; $xfl = substr($data,8,1); $os = substr($data,8,1); $headerlen = 10; $extralen = 0; $extra = ""; if ($flags & 4) { // 2-byte length prefixed EXTRA data in header if ($len - $headerlen - 2 < 8) { return false; // Invalid format } $extralen = unpack("v",substr($data,8,2)); $extralen = $extralen[1]; if ($len - $headerlen - 2 - $extralen < 8) { return false; // Invalid format } $extra = substr($data,10,$extralen); $headerlen += 2 + $extralen; } $filenamelen = 0; $filename = ""; if ($flags & 8) { // C-style string file NAME data in header if ($len - $headerlen - 1 < 8) { return false; // Invalid format } $filenamelen = strpos(substr($data,8+$extralen),chr(0)); if ($filenamelen === false || $len - $headerlen - $filenamelen - 1 < 8) { return false; // Invalid format } $filename = substr($data,$headerlen,$filenamelen); $headerlen += $filenamelen + 1; } $commentlen = 0; $comment = ""; if ($flags & 16) { // C-style string COMMENT data in header if ($len - $headerlen - 1 < 8) { return false; // Invalid format } $commentlen = strpos(substr($data,8+$extralen+$filenamelen),chr(0)); if ($commentlen === false || $len - $headerlen - $commentlen - 1 < 8) { return false; // Invalid header format } $comment = substr($data,$headerlen,$commentlen); $headerlen += $commentlen + 1; } $headercrc = ""; if ($flags & 1) { // 2-bytes (lowest order) of CRC32 on header present if ($len - $headerlen - 2 < 8) { return false; // Invalid format } $calccrc = crc32(substr($data,0,$headerlen)) & 0xffff; $headercrc = unpack("v", substr($data,$headerlen,2)); $headercrc = $headercrc[1]; if ($headercrc != $calccrc) { return false; // Bad header CRC } $headerlen += 2; } // GZIP FOOTER - These be negative due to PHP's limitations $datacrc = unpack("V",substr($data,-8,4)); $datacrc = $datacrc[1]; $isize = unpack("V",substr($data,-4)); $isize = $isize[1]; // Perform the decompression: $bodylen = $len-$headerlen-8; if ($bodylen < 1) { // This should never happen - IMPLEMENTATION BUG! return null; } $body = substr($data,$headerlen,$bodylen); $data = ""; if ($bodylen > 0) { switch ($method) { case 8: // Currently the only supported compression method: $data = gzinflate($body); break; default: // Unknown compression method return false; } } else { // I'm not sure if zero-byte body content is allowed. // Allow it for now... Do nothing... } // Verifiy decompressed size and CRC32: // NOTE: This may fail with large data sizes depending on how // PHP's integer limitations affect strlen() since $isize // may be negative for large sizes. if ($isize != strlen($data) || crc32($data) != $datacrc) { // Bad format! Length or CRC doesn't match! return false; } return $data; }
使用:
$html=file_get_contents('http://www.jb51.net/'); $html=gzdecode($html);
就介绍这三个方法,应该能解决大部分gzip引起的抓取乱码问题了。

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











웹 사이트의 사용자 경험을 향상시키기 위해 PHP를 사용하여 캐시를 개발하는 방법 요약: 캐싱은 웹 사이트 개발에서 사용자 경험을 향상시키는 중요한 수단 중 하나입니다. 이 기사에서는 웹 사이트의 응답 속도를 향상시키고 서버 부하를 줄이기 위해 PHP를 사용하여 캐시를 개발하는 방법을 소개합니다. 구체적으로 페이지 캐싱, 데이터 캐싱, 정적 리소스 캐싱이 포함되며 해당 코드 예제가 제공됩니다. 소개 인터넷의 급속한 발전으로 인해 사용자는 웹 사이트에 대한 요구 사항이 점점 더 높아지고 있습니다. 빠르고 반응이 빠른 웹사이트는 사용자 경험을 향상시키는 데 중요한 역할을 합니다. 캐시는 이를 달성하기 위한 것입니다.

인터넷의 급속한 발전과 함께 웹사이트는 기업과 개인에게 점점 더 중요해지고 있습니다. 더 많은 트래픽을 유도하고 사용자 경험을 향상시키기 위해 웹사이트 최적화와 SEO는 필수적인 부분이 되었습니다. 이런 점에서 파고다 패널은 웹사이트 최적화 및 SEO를 쉽게 수행할 수 있는 매우 유용한 도구입니다. 다음에서는 웹사이트 최적화 및 SEO를 위해 파고다 패널을 사용하는 방법을 자세히 소개합니다. 1. 파고다 패널을 설치합니다. 파고다 패널을 설치하지 않은 경우 파고다 공식 홈페이지(https://www.bt.cn/)에서 다운로드할 수 있습니다.

HTTP 상태 코드 301에 대한 심층 분석: 웹사이트 최적화에서 이것이 중요한 이유 인터넷 세계에서는 웹사이트 성능과 사용자 경험이 매우 중요합니다. 웹사이트 최적화의 일환으로 HTTP 상태 코드의 역할을 이해하는 것이 중요합니다. 가장 중요한 상태 코드 중 하나는 영구 리디렉션이라고도 알려진 301입니다. 이 기사에서는 HTTP 상태 코드 301의 의미를 살펴보고 이것이 웹사이트 최적화에 중요한 이유를 설명합니다. HTTP 상태 코드는 서버가 클라이언트에 반환하는 디지털 코드입니다. 이 코드는 클라이언트에게 다음과 같은 내용을 전달합니다.

Nginx 로드 밸런싱 알고리즘 구성, 웹 사이트 서비스 배포의 효율적인 최적화 개요: 대규모 웹 애플리케이션에서 시스템의 내결함성과 확장성을 높이기 위해 로드 밸런싱은 일반적으로 네트워크 요청을 분산하는 데 사용됩니다. 고성능 역방향 프록시 서버인 Nginx는 강력한 로드 밸런싱 기능을 갖추고 있으며 다양한 알고리즘 전략에 따라 요청을 분산시킬 수 있습니다. 이 기사에서는 Nginx의 로드 밸런싱 알고리즘 구성을 소개하고 해당 코드 예제를 제공합니다. 1. 로드 밸런싱 알고리즘 소개 Nginx는 다양한 로드 밸런싱 알고리즘을 제공합니다.

JavaScript 오류는 웹사이트 성능에 영향을 미칠 수 있습니다. 이러한 오류를 수정하려면 웹 개발 도구를 사용하여 오류를 확인하세요. 자세한 오류 정보는 오류 추적을 확인하세요. 코드의 변수가 초기화되었는지 또는 값이 있는지 확인하세요. 정적 분석을 사용하여 구문 및 논리 문제를 찾습니다. 친숙한 오류 메시지를 제공하려면 오류 처리를 활성화합니다. 지속적인 오류를 감지하려면 웹사이트를 모니터링하세요.

웹사이트 성능 최적화를 위한 주요 지표에 대한 자세한 설명: 지표 분석을 통해 웹사이트 사용자 경험을 개선하는 방법은 무엇입니까? 인터넷의 급속한 발전으로 인해 웹사이트는 기업이 브랜드 이미지를 표시하고 제품과 서비스를 제공하는 중요한 채널이 되었습니다. 그러나 온라인 경험에 대한 사용자의 요구 사항이 계속 증가함에 따라 웹 사이트 성능의 중요성이 점점 더 중요해지고 있습니다. 웹사이트 성능을 최적화하면 사용자 경험을 향상시킬 수 있을 뿐만 아니라 사용자 유지율과 전환율도 높일 수 있습니다. 이 글에서는 웹사이트 성능 최적화를 위한 주요 지표를 자세히 소개하고 지표 분석을 통해 웹사이트 사용자 경험을 개선하는 방법을 설명합니다. 하나

최적화를 통해 웹사이트 성능과 속도를 향상시키는 방법 인터넷의 급속한 발전으로 웹사이트는 기업 홍보, 제품 판매, 정보 교환의 중요한 채널이 되었습니다. 그러나 사용자 기대치가 높아짐에 따라 웹사이트 성능과 속도가 사용자 경험을 나타내는 중요한 지표가 되었습니다. 성능이 좋고 로딩 속도가 빠른 웹사이트는 사용자 만족도를 높이고 전환율을 높이며 검색 엔진 순위를 높일 수 있습니다. 아래에서는 최적화를 통해 웹사이트의 성능과 속도를 향상시키는 방법을 자세히 살펴보겠습니다. 이미지 압축 및 최적화: 이미지는 웹페이지 로드 시간의 대부분을 차지하는 경우가 많습니다.

매우 인기 있는 프로그래밍 언어인 PHP는 웹사이트 개발에 널리 사용됩니다. 그러나 PHP 자체의 결함으로 인해 성능 면에서 일정한 단점이 있습니다. 예를 들어, PHP는 각 요청을 구문 분석하고 컴파일해야 하며, 이로 인해 웹 사이트의 응답 속도가 느려지고 사용자 경험에 영향을 미치게 됩니다. 그래서 이러한 문제를 해결하기 위해 PHP 캐싱 기술이 등장하게 되었습니다. PHP 캐싱 기술은 PHP 인터프리터의 구문 분석 및 컴파일 프로세스를 최적화하는 것입니다. 그 핵심은 구문 분석 및 컴파일된 PHP 스크립트를 캐시하는 것입니다.
