ホームページ php教程 php手册 PHP的cURL库实现网页抓取例子介绍

PHP的cURL库实现网页抓取例子介绍

May 23, 2016 am 08:33 AM
カールライブラリ ウェブスクレイピング

使用PHP的cURL库可以简单和有效地去抓网页,你只需要运行一个脚本,然后分析一下你所抓取的网页,然后就可以以程序的方式得到你想要的数据了,无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,cURL 是一个功能强大的PHP库,本文主要讲述如果使用这个PHP库.

下面是一个利用cURL库抓取网页的简单例子:

<?php 
	$curl = curl_init(); //初始化一个cURL对象 
	curl_setopt($curl, CURLOPT_URL, &#39;http://phprm.com&#39;); //设置你需要抓取的URL 
	curl_setopt($curl, CURLOPT_HEADER, 1); //设置header 
	curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); //设置cURL参数 
	$data = curl_exec($curl); //运行cURL,请求网页 
	curl_close($curl); //关闭URL请求 
	var_dump($data); //显示获得的数据 
	 
ログイン後にコピー

如何POST数据:上面是抓取网页的代码,下面则是向某个网页POST数据,假设我们有一个处理表单的网址http://www.phprm.com/sendSMS.php,其可以接受两个表单域,一个是电话号码,一个是短信内容.

<?php 
	$phoneNumber = &#39;13912345678&#39;; 
	$message = &#39;This message was generated by curl and php&#39;; 
	$curlPost  = &#39;pNUMBER=&#39; . urlencode($phoneNumber); 
	$curlPost .= &#39;&MESSAGE=&#39; . urlencode($message); 
	$curlPost .= &#39;&SUBMIT=Send&#39;; 
	$ch = curl_init(); 
	curl_setopt($ch, CURLOPT_URL, &#39;http://www.phprm.com/sendSMS.php&#39;); 
	curl_setopt($ch, CURLOPT_HEADER, 1); 
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
	curl_setopt($ch, CURLOPT_POST, 1); 
	curl_setopt($ch, CURLOPT_POSTFIELDS, $curlPost); 
	$data = curl_exec();curl_close($ch); 
	 
ログイン後にコピー

从上面的程序我们可以看到,使用CURLOPT_POST设置HTTP协议的POST方法,而不是GET方法,然后以CURLOPT_POSTFIELDS设置POST的数据.

关于代理服务器:下面是一个如何使用代理服务器的示例,请注意其中高亮的代码,代码很简单,我就不用多说了.

<?php 
	$ch = curl_init(); 
	curl_setopt($ch, CURLOPT_URL, &#39;http://www.phprm.com&#39;); 
	curl_setopt($ch, CURLOPT_HEADER, 1); 
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
	curl_setopt($ch, CURLOPT_HTTPPROXYTUNNEL, 1); 
	curl_setopt($ch, CURLOPT_PROXY, &#39;fakeproxy.com:1080&#39;); 
	curl_setopt($ch, CURLOPT_PROXYUSERPWD, &#39;user:password&#39;); 
	$data = curl_exec();curl_close($ch); 
	 
ログイン後にコピー

关于SSL和Cookie

关于SSL也就是HTTPS协议,你只需要把CURLOPT_URL连接中的http://变成https://就可以了,当然,还有一个参数叫CURLOPT_SSL_VERIFYHOST可以设置为验证站点.

关于Cookie,你需要了解下面三个参数:

CURLOPT_COOKIE,在当面的会话中设置一个cookie

CURLOPT_COOKIEJAR,当会话结束的时候保存一个Cookie

CURLOPT_COOKIEFILE,Cookie的文件.

HTTP服务器认证:最后,我们来看一看HTTP服务器认证的情况.

<?php 
	$ch = curl_init(); 
	curl_setopt($ch, CURLOPT_URL, &#39;http://www.phprm.com&#39;); 
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
	curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_BASIC); 
	curl_setopt(CURLOPT_USERPWD, &#39;[username]:[password]&#39;); 
	 
	$data = curl_exec(); 
	curl_close($ch); 
	 
ログイン後にコピー

关于其它更多的内容,请参看相关的cURL手册.

教程链接:

随意转载~但请保留教程地址★

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)