이 글에서는 주로 PHP가 HTTPS 콘텐츠를 크롤링하는 구현 방법과 크롤링 중에 발생하는 HTTPS 문제를 처리하는 방법을 소개합니다. 도움이 필요한 친구들은 아래를 참고하세요.
Problem
Hacker News API를 조사하는 동안 HTTPS 문제가 발생했습니다. 모든 Hacker News API는 일반 HTTP 프로토콜과 다른 암호화된 HTTPS 프로토콜을 통해 접근하기 때문에 PHP <a href="http://www.php.cn/wiki/1311%20%EC%97%90%EC%84%9C%20%ED%95%A8%EC%88%98%EB%A5%BC%20%EC%82%AC%EC%9A%A9%ED%95%A0%20%EB%95%8C.%20html" target="_blank">file_get_contents</a>()
API에서 제공하는 데이터를 가져올 때 오류가 발생했습니다 <a href="http://www.php.cn/wiki/1311.html" target="_blank">file_get_contents</a>()
来获取API里提供的数据时,出现错误
使用的代码是这样的:
<?php $data = file_get_contents("/http://blog.it985.com/"); ?>
当运行上面的代码是遇到下面的错误提示:
PHP Warning: file_get_contents(): Unable to find the wrapper “https” – did you forget to enable it when you configured PHP?
为什么会出现这样的错误?
在网上经过一番搜索,发现遇到这样错误的人还不少,问题很直接,是因为在PHP的配置文件里没有开启一个参数,在我本机上是 /apache/bin/php.ini 里的 ;extension=php_openssl.dll
这一项,需要将前面的分号去掉。
你可以用下面的脚本来检查你的PHP环境的配置:
<?php $w = stream_get_wrappers(); echo 'openssl: ', extension_loaded ('openssl') ? 'yes':'no', "\n"; echo 'http wrapper: ', in_array('http', $w) ? 'yes':'no', "\n"; echo 'https wrapper: ', in_array('https', $w) ? 'yes':'no', "\n"; echo 'wrappers: ', var_dump($w);
运行上面的这个脚本片段,在我的机器上得到的结果是:
<?php openssl: no http wrapper: yes https wrapper: no wrappers: array(10) { [0]=> string(3) "php" [1]=> string(4) "file" [2]=> string(4) "glob" [3]=> string(4) "data" [4]=> string(4) "http" [5]=> string(3) "ftp" [6]=> string(3) "zip" [7]=> string(13) "compress.zlib" [8]=> string(14) "compress.bzip2" [9]=> string(4) "phar" }
替代方案
发现错误,改正错误,这很简单,困难的是,发现错误后无法改正错误。我原本是想将这个脚本方法远程主机上,但我无法修改远程主机的PHP配置,结果是,我无法使用这一方案,但我们不能在一棵树上吊死,这条路走不通,看看有没有其它路。
另外一个我经常用的PHP里抓取内容的函数是 curl
,它比 file_get_contents()
更强大,提供了很多的可选参数。对于访问 HTTPS 内容的问题,我们需要使用的 CURL
配置参数是:
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
你可以从语义上看出,它是忽略/跳过了SSL安全验证。也许这不是一个很好的做法,但对于普通的场景中,这几经足够了。
下面是利用 Curl
function getHTTPS($url) { $ch = curl_init(); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE); curl_setopt($ch, CURLOPT_HEADER, false); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_REFERER, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); $result = curl_exec($ch); curl_close($ch); return $result; }
/apache/bin/php.ini에 있습니다.
한 항목의 경우 앞의 세미콜론을 제거해야 합니다. 🎜🎜다음 스크립트를 사용하여 PHP 환경 구성을 확인할 수 있습니다. 🎜rrreee🎜위의 이 스크립트 조각을 실행하면 내 컴퓨터의 결과는 다음과 같습니다. 간단합니다. 오류를 발견한 후에는 수정할 수 없다는 것이 어렵습니다. 원래는 이 스크립트 메소드를 원격 호스트에 넣고 싶었지만 원격 호스트의 PHP 구성을 수정할 수 없었습니다. 결과적으로 이 솔루션을 사용할 수 없었지만 우리는 나무에 매달릴 수 없었습니다. 이 도로는 작동하지 않습니다. 다른 방법. 🎜🎜PHP에서 콘텐츠를 가져오는 데 자주 사용하는 또 다른 함수는 curl
입니다. 이 함수는 file_get_contents()
보다 더 강력하고 많은 선택적 매개변수를 제공합니다. HTTPS 콘텐츠 액세스 문제의 경우 사용해야 하는 CURL
구성 매개변수는 다음과 같습니다. 🎜rrreee🎜 SSL 보안 확인을 무시/건너뛰는 의미를 볼 수 있습니다. 어쩌면 이것은 좋은 생각이 아닐 수도 있지만 일반적인 시나리오에서는 이것으로 충분합니다. 🎜🎜다음은 HTTPS 콘텐츠에 접근할 수 있는 Curl
로 캡슐화된 함수입니다. 🎜rrreee위 내용은 HTTPS 콘텐츠 수집 및 오류 처리를 위한 PHP 메서드 샘플 코드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!