백엔드 개발 PHP 튜토리얼 php file_get_contents抓取Gzip网页乱码的三种解决方法

php file_get_contents抓取Gzip网页乱码的三种解决方法

Jun 20, 2016 pm 01:01 PM
웹사이트 최적화

用 file_get_contents() 函数抓取网页会发生乱码现象。有两个原因会导致乱码,一个是编码问题,一个是目标页面开了Gzip,下面说的就是开了Gzip功能如何才能不乱码的方法

把抓取到的内容转下编码即可($content=iconv("GBK", "UTF-8//IGNORE", $content);),我们这里讨论的是如何抓取开了Gzip的页面。怎么判断呢?获取的头部当中有Content-Encoding: gzip说明内容是GZIP压缩的。用FireBug看一下就知道页面开了gzip没有。下面是用firebug查看我的博客的头信息,Gzip是开了的。
请求头信息原始头信息
 

Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding gzip, deflate
Accept-Language zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Connection keep-alive
Cookie __utma=225240837.787252530.1317310581.1335406161.1335411401.1537; __utmz=225240837.1326850415.887.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BB%BB%E4%BD%95%E9%A1%B9%E7%9B%AE%E9%83%BD%E4%B8%8D%E4%BC%9A%E9%82%A3%E4%B9%88%E7%AE%80%E5%8D%95%20site%3Awww.nowamagic.net; PHPSESSID=888mj4425p8s0m7s0frre3ovc7; __utmc=225240837; __utmb=225240837.1.10.1335411401
Host www.nowamagic.net
User-Agent Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0
로그인 후 복사


下面介绍一些解决方案:

1. 使用自带的zlib库
如果服务器已经装了zlib库,用下面的代码可以轻易解决乱码问题。

$data = file_get_contents("compress.zlib://".$url);
로그인 후 복사

2. 使用CURL代替file_get_contents

function curl_get($url, $gzip=false){
 $curl = curl_init($url);
 curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
 curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);
 if($gzip) curl_setopt($curl, CURLOPT_ENCODING, "gzip"); // 关键在这里
 $content = curl_exec($curl);
 curl_close($curl);
 return $content;
}
로그인 후 복사

3. 使用gzip解压函数

function gzdecode($data) { 
  $len = strlen($data); 
  if ($len < 18 || strcmp(substr($data,0,2),"\x1f\x8b")) { 
    return null;  // Not GZIP format (See RFC 1952) 
  } 
  $method = ord(substr($data,2,1));  // Compression method 
  $flags  = ord(substr($data,3,1));  // Flags 
  if ($flags & 31 != $flags) { 
    // Reserved bits are set -- NOT ALLOWED by RFC 1952 
    return null; 
  } 
  // NOTE: $mtime may be negative (PHP integer limitations) 
  $mtime = unpack("V", substr($data,4,4)); 
  $mtime = $mtime[1]; 
  $xfl   = substr($data,8,1); 
  $os    = substr($data,8,1); 
  $headerlen = 10; 
  $extralen  = 0; 
  $extra     = ""; 
  if ($flags & 4) { 
    // 2-byte length prefixed EXTRA data in header 
    if ($len - $headerlen - 2 < 8) { 
      return false;    // Invalid format 
    } 
    $extralen = unpack("v",substr($data,8,2)); 
    $extralen = $extralen[1]; 
    if ($len - $headerlen - 2 - $extralen < 8) { 
      return false;    // Invalid format 
    } 
    $extra = substr($data,10,$extralen); 
    $headerlen += 2 + $extralen; 
  }



  $filenamelen = 0; 
  $filename = ""; 
  if ($flags & 8) { 
    // C-style string file NAME data in header 
    if ($len - $headerlen - 1 < 8) { 
      return false;    // Invalid format 
    } 
    $filenamelen = strpos(substr($data,8+$extralen),chr(0)); 
    if ($filenamelen === false || $len - $headerlen - $filenamelen - 1 < 8) { 
      return false;    // Invalid format 
    } 
    $filename = substr($data,$headerlen,$filenamelen); 
    $headerlen += $filenamelen + 1; 
  }

  $commentlen = 0; 
  $comment = ""; 
  if ($flags & 16) { 
    // C-style string COMMENT data in header 
    if ($len - $headerlen - 1 < 8) { 
      return false;    // Invalid format 
    } 
    $commentlen = strpos(substr($data,8+$extralen+$filenamelen),chr(0)); 
    if ($commentlen === false || $len - $headerlen - $commentlen - 1 < 8) { 
      return false;    // Invalid header format 
    } 
    $comment = substr($data,$headerlen,$commentlen); 
    $headerlen += $commentlen + 1; 
  }

  $headercrc = ""; 
  if ($flags & 1) { 
    // 2-bytes (lowest order) of CRC32 on header present 
    if ($len - $headerlen - 2 < 8) { 
      return false;    // Invalid format 
    } 
    $calccrc = crc32(substr($data,0,$headerlen)) & 0xffff; 
    $headercrc = unpack("v", substr($data,$headerlen,2)); 
    $headercrc = $headercrc[1]; 
    if ($headercrc != $calccrc) { 
      return false;    // Bad header CRC 
    } 
    $headerlen += 2; 
  }

  // GZIP FOOTER - These be negative due to PHP's limitations 
  $datacrc = unpack("V",substr($data,-8,4)); 
  $datacrc = $datacrc[1]; 
  $isize = unpack("V",substr($data,-4)); 
  $isize = $isize[1];

  // Perform the decompression: 
  $bodylen = $len-$headerlen-8; 
  if ($bodylen < 1) { 
    // This should never happen - IMPLEMENTATION BUG! 
    return null; 
  } 
  $body = substr($data,$headerlen,$bodylen); 
  $data = ""; 
  if ($bodylen > 0) { 
    switch ($method) { 
      case 8: 
        // Currently the only supported compression method: 
        $data = gzinflate($body); 
        break; 
      default: 
        // Unknown compression method 
        return false; 
    } 
  } else { 
    // I'm not sure if zero-byte body content is allowed. 
    // Allow it for now...  Do nothing... 
  }

  // Verifiy decompressed size and CRC32: 
  // NOTE: This may fail with large data sizes depending on how 
  //       PHP's integer limitations affect strlen() since $isize 
  //       may be negative for large sizes. 
  if ($isize != strlen($data) || crc32($data) != $datacrc) { 
    // Bad format!  Length or CRC doesn't match! 
    return false; 
  } 
  return $data; 
}
로그인 후 복사


使用:

$html=file_get_contents('http://www.jb51.net/');
$html=gzdecode($html);
로그인 후 복사


就介绍这三个方法,应该能解决大部分gzip引起的抓取乱码问题了。


본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

웹사이트의 사용자 경험을 향상시키기 위해 PHP를 사용하여 캐시를 개발하는 방법 웹사이트의 사용자 경험을 향상시키기 위해 PHP를 사용하여 캐시를 개발하는 방법 Nov 07, 2023 pm 04:18 PM

웹 사이트의 사용자 경험을 향상시키기 위해 PHP를 사용하여 캐시를 개발하는 방법 요약: 캐싱은 웹 사이트 개발에서 사용자 경험을 향상시키는 중요한 수단 중 하나입니다. 이 기사에서는 웹 사이트의 응답 속도를 향상시키고 서버 부하를 줄이기 위해 PHP를 사용하여 캐시를 개발하는 방법을 소개합니다. 구체적으로 페이지 캐싱, 데이터 캐싱, 정적 리소스 캐싱이 포함되며 해당 코드 예제가 제공됩니다. 소개 인터넷의 급속한 발전으로 인해 사용자는 웹 사이트에 대한 요구 사항이 점점 더 높아지고 있습니다. 빠르고 반응이 빠른 웹사이트는 사용자 경험을 향상시키는 데 중요한 역할을 합니다. 캐시는 이를 달성하기 위한 것입니다.

웹사이트 최적화 및 SEO를 위해 Pagoda 패널을 사용하는 방법 웹사이트 최적화 및 SEO를 위해 Pagoda 패널을 사용하는 방법 Jun 21, 2023 am 09:07 AM

인터넷의 급속한 발전과 함께 웹사이트는 기업과 개인에게 점점 더 중요해지고 있습니다. 더 많은 트래픽을 유도하고 사용자 경험을 향상시키기 위해 웹사이트 최적화와 SEO는 필수적인 부분이 되었습니다. 이런 점에서 파고다 패널은 웹사이트 최적화 및 SEO를 쉽게 수행할 수 있는 매우 유용한 도구입니다. 다음에서는 웹사이트 최적화 및 SEO를 위해 파고다 패널을 사용하는 방법을 자세히 소개합니다. 1. 파고다 패널을 설치합니다. 파고다 패널을 설치하지 않은 경우 파고다 공식 홈페이지(https://www.bt.cn/)에서 다운로드할 수 있습니다.

웹사이트 최적화에서 HTTP 상태 코드 301의 중요성에 대한 심층 연구 웹사이트 최적화에서 HTTP 상태 코드 301의 중요성에 대한 심층 연구 Feb 19, 2024 pm 08:01 PM

HTTP 상태 코드 301에 대한 심층 분석: 웹사이트 최적화에서 이것이 중요한 이유 인터넷 세계에서는 웹사이트 성능과 사용자 경험이 매우 중요합니다. 웹사이트 최적화의 일환으로 HTTP 상태 코드의 역할을 이해하는 것이 중요합니다. 가장 중요한 상태 코드 중 하나는 영구 리디렉션이라고도 알려진 301입니다. 이 기사에서는 HTTP 상태 코드 301의 의미를 살펴보고 이것이 웹사이트 최적화에 중요한 이유를 설명합니다. HTTP 상태 코드는 서버가 클라이언트에 반환하는 디지털 코드입니다. 이 코드는 클라이언트에게 다음과 같은 내용을 전달합니다.

웹 사이트 서비스 배포를 효율적으로 최적화하기 위한 Nginx 로드 밸런싱 알고리즘 구성 웹 사이트 서비스 배포를 효율적으로 최적화하기 위한 Nginx 로드 밸런싱 알고리즘 구성 Jul 04, 2023 pm 08:10 PM

Nginx 로드 밸런싱 알고리즘 구성, 웹 사이트 서비스 배포의 효율적인 최적화 개요: 대규모 웹 애플리케이션에서 시스템의 내결함성과 확장성을 높이기 위해 로드 밸런싱은 일반적으로 네트워크 요청을 분산하는 데 사용됩니다. 고성능 역방향 프록시 서버인 Nginx는 강력한 로드 밸런싱 기능을 갖추고 있으며 다양한 알고리즘 전략에 따라 요청을 분산시킬 수 있습니다. 이 기사에서는 Nginx의 로드 밸런싱 알고리즘 구성을 소개하고 해당 코드 예제를 제공합니다. 1. 로드 밸런싱 알고리즘 소개 Nginx는 다양한 로드 밸런싱 알고리즘을 제공합니다.

웹사이트를 최적화하고 JavaScript 오류를 제거하세요 웹사이트를 최적화하고 JavaScript 오류를 제거하세요 Apr 09, 2024 pm 03:09 PM

JavaScript 오류는 웹사이트 성능에 영향을 미칠 수 있습니다. 이러한 오류를 수정하려면 웹 개발 도구를 사용하여 오류를 확인하세요. 자세한 오류 정보는 오류 추적을 확인하세요. 코드의 변수가 초기화되었는지 또는 값이 있는지 확인하세요. 정적 분석을 사용하여 구문 및 논리 문제를 찾습니다. 친숙한 오류 메시지를 제공하려면 오류 처리를 활성화합니다. 지속적인 오류를 감지하려면 웹사이트를 모니터링하세요.

공개된 웹사이트 성능 최적화의 핵심 요소: 지표 분석을 사용하여 사용자 경험을 개선하는 방법은 무엇입니까? 공개된 웹사이트 성능 최적화의 핵심 요소: 지표 분석을 사용하여 사용자 경험을 개선하는 방법은 무엇입니까? Feb 02, 2024 pm 06:36 PM

웹사이트 성능 최적화를 위한 주요 지표에 대한 자세한 설명: 지표 분석을 통해 웹사이트 사용자 경험을 개선하는 방법은 무엇입니까? 인터넷의 급속한 발전으로 인해 웹사이트는 기업이 브랜드 이미지를 표시하고 제품과 서비스를 제공하는 중요한 채널이 되었습니다. 그러나 온라인 경험에 대한 사용자의 요구 사항이 계속 증가함에 따라 웹 사이트 성능의 중요성이 점점 더 중요해지고 있습니다. 웹사이트 성능을 최적화하면 사용자 경험을 향상시킬 수 있을 뿐만 아니라 사용자 유지율과 전환율도 높일 수 있습니다. 이 글에서는 웹사이트 성능 최적화를 위한 주요 지표를 자세히 소개하고 지표 분석을 통해 웹사이트 사용자 경험을 개선하는 방법을 설명합니다. 하나

웹사이트 성능과 속도를 향상시키는 최적화 방법 웹사이트 성능과 속도를 향상시키는 최적화 방법 Feb 03, 2024 am 08:22 AM

최적화를 통해 웹사이트 성능과 속도를 향상시키는 방법 인터넷의 급속한 발전으로 웹사이트는 기업 홍보, 제품 판매, 정보 교환의 중요한 채널이 되었습니다. 그러나 사용자 기대치가 높아짐에 따라 웹사이트 성능과 속도가 사용자 경험을 나타내는 중요한 지표가 되었습니다. 성능이 좋고 로딩 속도가 빠른 웹사이트는 사용자 만족도를 높이고 전환율을 높이며 검색 엔진 순위를 높일 수 있습니다. 아래에서는 최적화를 통해 웹사이트의 성능과 속도를 향상시키는 방법을 자세히 살펴보겠습니다. 이미지 압축 및 최적화: 이미지는 웹페이지 로드 시간의 대부분을 차지하는 경우가 많습니다.

웹사이트 최적화에서 PHP 캐싱 기술의 중요성 웹사이트 최적화에서 PHP 캐싱 기술의 중요성 Jun 19, 2023 pm 06:46 PM

매우 인기 있는 프로그래밍 언어인 PHP는 웹사이트 개발에 널리 사용됩니다. 그러나 PHP 자체의 결함으로 인해 성능 면에서 일정한 단점이 있습니다. 예를 들어, PHP는 각 요청을 구문 분석하고 컴파일해야 하며, 이로 인해 웹 사이트의 응답 속도가 느려지고 사용자 경험에 영향을 미치게 됩니다. 그래서 이러한 문제를 해결하기 위해 PHP 캐싱 기술이 등장하게 되었습니다. PHP 캐싱 기술은 PHP 인터프리터의 구문 분석 및 컴파일 프로세스를 최적화하는 것입니다. 그 핵심은 구문 분석 및 컴파일된 PHP 스크립트를 캐시하는 것입니다.

See all articles