首頁 後端開發 php教程 curl实现站外采集的方法和技巧_PHP教程

curl实现站外采集的方法和技巧_PHP教程

Jul 13, 2016 am 10:39 AM
curl

选择curl的理由

关于curl与file_get_contents,摘抄一段通俗易懂的对比:
file_get_contents其实是一堆内置的文件操作函数的合并版本,比如file_exists,fopen,fread,fclose,专门提供给懒人用的,而且它主要是用来对付本地文件的,但又是因为懒人的原因,同时加入了对网络文件的支持;
curl是专门用来进行网络交互的库,提供了一堆自定义选项,用来应对不同的环境,稳定性自然要大于file_get_contents。

使用方法

1、开启curl支持

由于php环境安装后默认是没有打开curl支持的,需修改php.ini文件,找到;extension=php_curl.dll,把前面的冒号去掉,重启服务即可;

2、使用curl进行数据抓取

复制代码 代码如下:

// 初始化一个 cURL 对象
$curl = curl_init();
// 设置你需要抓取的URL
curl_setopt($curl, CURLOPT_URL, 'http://www.cmx8.cn');
// 设置header
curl_setopt($curl, CURLOPT_HEADER, 1);
// 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
// 运行cURL,请求网页
$data = curl_exec($curl);
// 关闭URL请求
curl_close($curl);

3、通过正则匹配找到关键数据

复制代码 代码如下:

//$data是curl_exec返回的的值,即采集的目标内容
preg_match_all("/
  • (.*?)/",$data, $out, PREG_SET_ORDER);
    foreach($out as $key => $value){
        //此处$value是数组,同时记录找到带匹配字符的整句和单独匹配的字符
        echo '匹配到的整句:'.$value[0].'
    ';
        echo '单独匹配到的:'.$value[1].'
    ';
    }
  • 技巧

    1、超时的相关设置

    通过curl_setopt($ch, opt) 可以设置一些超时的设置,主要包括:

    CURLOPT_TIMEOUT 设置cURL允许执行的最长秒数。
    CURLOPT_TIMEOUT_MS 设置cURL允许执行的最长毫秒数。 (在cURL 7.16.2中被加入。从PHP 5.2.3起可使用。 )
    CURLOPT_CONNECTTIMEOUT 在发起连接前等待的时间,如果设置为0,则无限等待。
    CURLOPT_CONNECTTIMEOUT_MS 尝试连接等待的时间,以毫秒为单位。如果设置为0,则无限等待。 在cURL 7.16.2中被加入。从PHP 5.2.3开始可用。
    CURLOPT_DNS_CACHE_TIMEOUT 设置在内存中保存DNS信息的时间,默认为120秒。

    复制代码 代码如下:

    curl_setopt($ch, CURLOPT_TIMEOUT, 60);   //只需要设置一个秒的数量就可以
    curl_setopt($ch, CURLOPT_NOSIGNAL, 1);    //注意,毫秒超时一定要设置这个
    curl_setopt($ch, CURLOPT_TIMEOUT_MS, 200);  //超时毫秒,cURL 7.16.2中被加入。从PHP 5.2.3起可使用

    2、通过post提交数据,保留cookie

    复制代码 代码如下:

    //以下摘抄一个例子过来,用于学习借鉴:
    //Curl 模拟登录 discuz 程序,适合DZ7.0

    !extension_loaded('curl') && die('The curl extension is not loaded.');   

    $discuz_url = 'http://www.lxvoip.com';//论坛地址   
    $login_url = $discuz_url .'/logging.php?action=login';//登录页地址   
    $get_url = $discuz_url .'/my.php?item=threads'; //我的帖子   

    $post_fields = array();   
    //以下两项不需要修改   
    $post_fields['loginfield'] = 'username';   
    $post_fields['loginsubmit'] = 'true';   
    //用户名和密码,必须填写   
    $post_fields['username'] = 'lxvoip';   
    $post_fields['password'] = '88888888';   
    //安全提问   
    $post_fields['questionid'] = 0;   
    $post_fields['answer'] = '';   
    //@todo验证码   
    $post_fields['seccodeverify'] = '';   

    //获取表单FORMHASH   
    $ch = curl_init($login_url);   
    curl_setopt($ch, CURLOPT_HEADER, 0);   
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);   
    $contents = curl_exec($ch);   
    curl_close($ch);   
    preg_match('//i', $contents, $matches);   
    if(!empty($matches)) {   
        $formhash = $matches[1];   
    } else {   
        die('Not found the forumhash.');   
    }   

    //POST数据,获取COOKIE   
    $cookie_file = dirname(__FILE__) . '/cookie.txt';   
    //$cookie_file = tempnam('/tmp');   
    $ch = curl_init($login_url);   
    curl_setopt($ch, CURLOPT_HEADER, 0);   
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);   
    curl_setopt($ch, CURLOPT_POST, 1);   
    curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);   
    curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);   
    curl_exec($ch);   
    curl_close($ch);   

    //带着上面得到的COOKIE获取需要登录后才能查看的页面内容   
    $ch = curl_init($get_url);   
    curl_setopt($ch, CURLOPT_HEADER, 0);   
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0);   
    curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);   
    $contents = curl_exec($ch);   
    curl_close($ch);   

    var_dump($contents);

    www.bkjia.comtruehttp://www.bkjia.com/PHPjc/728088.htmlTechArticle选择curl的理由 关于curl与file_get_contents,摘抄一段通俗易懂的对比: file_get_contents其实是一堆内置的文件操作函数的合并版本,比如file_ex...
    本網站聲明
    本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

    熱AI工具

    Undresser.AI Undress

    Undresser.AI Undress

    人工智慧驅動的應用程序,用於創建逼真的裸體照片

    AI Clothes Remover

    AI Clothes Remover

    用於從照片中去除衣服的線上人工智慧工具。

    Undress AI Tool

    Undress AI Tool

    免費脫衣圖片

    Clothoff.io

    Clothoff.io

    AI脫衣器

    AI Hentai Generator

    AI Hentai Generator

    免費產生 AI 無盡。

    熱門文章

    R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
    3 週前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.最佳圖形設置
    3 週前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.如果您聽不到任何人,如何修復音頻
    3 週前 By 尊渡假赌尊渡假赌尊渡假赌
    WWE 2K25:如何解鎖Myrise中的所有內容
    4 週前 By 尊渡假赌尊渡假赌尊渡假赌

    熱工具

    記事本++7.3.1

    記事本++7.3.1

    好用且免費的程式碼編輯器

    SublimeText3漢化版

    SublimeText3漢化版

    中文版,非常好用

    禪工作室 13.0.1

    禪工作室 13.0.1

    強大的PHP整合開發環境

    Dreamweaver CS6

    Dreamweaver CS6

    視覺化網頁開發工具

    SublimeText3 Mac版

    SublimeText3 Mac版

    神級程式碼編輯軟體(SublimeText3)

    python中CURL和python requests的相互轉換如何實現 python中CURL和python requests的相互轉換如何實現 May 03, 2023 pm 12:49 PM

    curl和Pythonrequests都是發送HTTP請求的強大工具。雖然curl是一種命令列工具,可讓您直接從終端機發送請求,但Python的請求庫提供了一種更具程式化的方式來從Python程式碼發送請求。將curl轉換為Pythonrequestscurl指令的基本語法如下所示:curl[OPTIONS]URL將curl指令轉換為Python請求時,我們需要將選項和URL轉換為Python程式碼。這是一個範例curlPOST指令:curl-XPOSThttps://example.com/api

    Linux下更新curl版本教程! Linux下更新curl版本教程! Mar 07, 2024 am 08:30 AM

    在Linux下更新curl版本,您可以按照以下步驟進行操作:檢查目前curl版本:首先,您需要確定目前系統中安裝的curl版本。開啟終端,並執行以下指令:curl--version該指令將顯示目前curl的版本資訊。確認可用的curl版本:在更新curl之前,您需要確定可用的最新版本。您可以造訪curl的官方網站(curl.haxx.se)或相關的軟體來源,尋找最新版本的curl。下載curl原始碼:使用curl或瀏覽器,下載您選擇的curl版本的原始碼檔案(通常為.tar.gz或.tar.bz2

    PHP8.1發布:引入curl多個請求並發處理 PHP8.1發布:引入curl多個請求並發處理 Jul 08, 2023 pm 09:13 PM

    PHP8.1發布:引入curl多個請求並發處理近日,PHP官方發布了最新版本的PHP8.1,其中引入了一個重要的特性:curl多個請求並發處理。這個新功能為開發者提供了一個更有效率和靈活的方式來處理多個HTTP請求,大大提升了效能和使用者體驗。在以往的版本中,處理多個請求往往需要透過建立多個curl資源,並使用循環來分別發送和接收資料。這種方式雖然能夠實現目

    從頭到尾:如何使用php擴充cURL進行HTTP請求 從頭到尾:如何使用php擴充cURL進行HTTP請求 Jul 29, 2023 pm 05:07 PM

    從頭到尾:如何使用php擴充cURL進行HTTP請求引言:在Web開發中,經常需要與第三方API或其他遠端伺服器進行通訊。而使用cURL進行HTTP請求是一種常見且強大的方式。本文將介紹如何使用php擴充cURL來執行HTTP請求,並提供一些實用的程式碼範例。一、準備工作首先,請確保php已安裝cURL擴充。可以在命令列執行php-m|grepcurl查

    PHP Curl中如何處理網頁的 301 重定向? PHP Curl中如何處理網頁的 301 重定向? Mar 08, 2024 am 11:36 AM

    PHPCurl中如何處理網頁的301重定向?使用PHPCurl發送網路請求時,常會遇到網頁回傳的301狀態碼,表示頁面被永久重定向。為了正確處理這種情況,我們需要在Curl請求中加入一些特定的選項和處理邏輯。以下將詳細介紹在PHPCurl中如何處理網頁的301重定向,並提供具體的程式碼範例。 301重定向處理原理301重定向是指伺服器回傳了一個30

    linux curl是什麼 linux curl是什麼 Apr 20, 2023 pm 05:05 PM

    在linux中,curl是一個非常實用的、用來與伺服器之間傳輸資料的工具,是一個利用URL規則在命令列下工作的檔案傳輸工具;它支援檔案的上傳和下載,是綜合傳輸工具。 curl提供了一大堆非常有用的功能,包括代理存取、使用者認證、ftp上傳下載、HTTP POST、SSL連線、cookie支援、斷點續傳等等。

    php curl怎麼設定cookie php curl怎麼設定cookie Sep 26, 2021 am 09:27 AM

    php curl設定cookie的方法:1、建立PHP範例檔;2、透過「curl_setopt」函數設定cURL傳輸選項;3、在CURL中傳遞cookie即可。

    PHP Fatal error: Call to undefined function curl_setopt()的解決方法 PHP Fatal error: Call to undefined function curl_setopt()的解決方法 Jun 23, 2023 am 08:18 AM

    PHP是一種廣泛使用的開源腳本語言,被許多網站所使用。然而,有時候你可能會遇到PHPFatalerror:Calltoundefinedfunctioncurl_setopt()這個問題,這個問題也許會使你的網站無法正常運作。那麼這個問題到底是什麼原因造成的呢?在PHP中,curl_setopt()是一個非常重要的函數,它用於透過curl擴展庫

    See all articles