Rumah > pembangunan bahagian belakang > tutorial php > PHP模拟登陆抓取页面内容

PHP模拟登陆抓取页面内容

高洛峰
Lepaskan: 2016-10-17 10:14:46
asal
1372 orang telah melayarinya

平时开发中经常会遇到抓取某个页面内容, 但是有时候某些页面需要登陆才能访问, 最常见的就是论坛, 这时候我们需要来使用curl模拟登陆。 大致思路:需要先请求提取 cookies 并保存,然后利用保存下来的这个cookies再次发送请求来获取页面内容,下面我们直接上代码

<?php
/**
 * @Brief PHP读取Curl模拟登陆, 获取cookie, 带cookie进行请求
 * @Date: 2016/7/2
 * @Time: 9:41
 */
//设置cookie保存位置
$cookieFile = dirname(__FILE__).&#39;cookie.curl.tmp&#39;;
//第一步:获取cookie
$url = &#39;http://www.pythontab.com&#39;;
$data = array(
    &#39;username&#39;  => &#39;pythontab&#39;,
    &#39;password&#39;  => &#39;pythontab&#39;,
);
//curl初始化
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
//设置为post请求
curl_setopt($ch, CURLOPT_POST, true);
//设置附带返回header信息为空
curl_setopt($ch, CURLOPT_HEADER, 0);
//post数据
curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
//cookie保存文件位置
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookieFile);
//设置数据返回作为变量储存,而不是直接输出
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
//执行请求
$ret = curl_exec($ch);
//关闭连接
curl_close($ch);
//第二步:附带cookie请求需要登陆的页面
$url = &#39;http://www.pythontab.com&#39;;
//curl初始化
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
//设置为post请求
curl_setopt($ch, CURLOPT_POST, true);
//设置附带返回header信息为空
curl_setopt($ch, CURLOPT_HEADER, 0);
//设置cookie信息文件位置, 注意与第二步中的获取不同,这里是读取
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookieFile);
//设置数据返回作为变量储存,而不是直接输出
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
//执行请求
$ret = curl_exec($ch);
//关闭连接
curl_close($ch);
//打印抓取内容
var_dump($ret);
Salin selepas log masuk

这样我们就抓取到了需要登陆才能访问页面的内容, 注意上面的地址只是一个示例,需要换成你想要抓取页面的地址。 这样我们就可以做到很多事情了, 千万不要做坏事哦!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan