PHP 爬取鏈屋租屋資訊的方法-php教程-PHP中文網

在當今時代，隨著人們租屋需求的不斷增加，各種房產資訊網站的出現，如鍊家網、58同城等也隨之快速發展。而對於租屋者來說，快速取得租屋資訊是非常重要的。在這種情況下，編寫一個 PHP 爬蟲來爬取鍊家租屋資訊是一種高效且方便的解決方案。

本文將介紹一種簡單易懂的 PHP 爬取鍊家租房信息的方法，讓大家可以快速獲取並整合所需信息，以便更好地找到自己滿意的租房信息。

1.爬取網站原始碼

首先，對於爬蟲來說，最重要的就是要取得到目標網頁原始碼。因此，我們需要使用 PHP 的 cURL 函數來取得連結租屋首頁的原始碼。具體程式碼如下：

$url = "https://sz.lianjia.com/zufang/"; // 链家租房首页网址
$ch = curl_init();  //初始化curl
curl_setopt($ch, CURLOPT_URL, $url); //设置爬取网页url
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);//不直接输出网页内容
$data = curl_exec($ch);//执行curl
curl_close($ch);
echo $data;//输出网页源代码

登入後複製

上述程式碼使用了curl_init() 函數來初始化curl，curl_setopt() 函數設定了需要取得的目標網頁url，以及不直接輸出網頁內容，而是將其存放在$ data 變數中。然後使用 curl_exec() 函數執行 curl 並取得網頁原始碼。最後使用 curl_close() 函數關閉 curl。

2.分析網頁原始碼

在成功取得到鍊家租屋首頁的原始程式碼後，我們需要對其進行分析，才能找到所需的租屋資訊。在分析時，需要使用正規表示式來匹配所需的資訊。

連結租屋首頁的原始碼中，我們可以發現租屋資訊都包含在class 為"content__list--item" 的div 中，而且每一個租屋資訊都是獨立的div，因此我們可以使用正規表示式來符合這些div。具體正規表示式如下：

$preg = '/<div class="content__list--item".*?>.*?<div class="content__list--item--main">.*?<span class="content__list--item-price"><em>(.*?)</em>元/月</span>.*?<a.*?>(.*?)</a>.*?<span class="content__list--item--des">(.*?)</span>.*?<i>(.*?)</i>.*?</div>.*?</div>/si';
//匹配div,获取每个信息的价格、标题、描述、地区

登入後複製

在上述正規表示式中，我們匹配了包含租屋資訊的div 標籤，並且使用特定的正規表示式來匹配出包含價格、標題、描述和地區資訊的其他div 標籤或元素。其中，使用了 si 模式修飾符，以方便匹配多行文字。

3.解析網頁原始碼

在使用正則表達式匹配出所有租房信息所在的div 之後，我們需要進一步解析分析每個租房信息所包含的具體信息，如租金、地址等等。在這裡，我們可以使用 PHP 的 DOMDocument 類別來操作 HTML 標籤。

使用DOMDocument 類別解析HTML 標籤的具體程式碼如下：

$dom = new DOMDocument();
$dom->loadHTML($data);
$domxpath = new DOMXPath($dom);
$element = $domxpath->query('//div[@class="content__list--item"]');
foreach($element as $el){
    //在这里做具体解析操作
}

登入後複製

在上述程式碼中，我們首先使用DOMDocument 類別將取得的網頁原始碼載入到DOM 中，並且使用DOMXPath 類別來對DOM 進行xpath 查詢。然後，使用 query() 函數查詢所有租屋資訊所在的 div 元素，並使用 foreach() 函數來遍歷每個租屋資訊所在的 div 元素。

4.提取所需資訊

在對每個租屋資訊所在div 進行遍歷之後，我們需要進一步使用正則表達式來提取所需的信息，如價格、地址等等。具體的程式碼如下：

//提取价格
$price = $domxpath->query('.//span[@class="content__list--item-price"]/em',$el)->item(0)->nodeValue;
//提取标题
$title = $domxpath->query('.//a',$el)->item(0)->nodeValue;
//提取描述
$desc = $domxpath->query('.//span[@class="content__list--item--des"]',$el)->item(0)->nodeValue;
//提取地区
$region = $domxpath->query('.//i',$el)->item(0)->nodeValue;

登入後複製

在上述程式碼中，我們使用了query() 函數來從每個租屋資訊所在的div 元素中查詢出所需資訊的HTML 元素節點；使用item() 函數來選擇節點清單中的第一個元素，然後使用nodeValue 屬性取得該元素的文字內容。

5.整合所需資訊

最後，我們將所有所需資訊整合到一個關聯數組中。

$info = ['price'=>$price,
         'title'=>$title,
         'desc'=>$desc,
         'region'=>$region];

登入後複製

接著，我們將整合好的資訊加入到一個陣列中，並在遍歷完所有租屋資訊所在的 div 元素之後輸出整個陣列。

$result[] = $info;// 将每个房屋信息数组添加到$result数组
}
print_r($result);//输出所有租房信息数组

登入後複製

透過上述的操作，我們可以輕鬆地獲取鍊家租房網站中的所有相關信息，從而為我們的租房帶來極大的方便。

總結

透過這篇文章的介紹，相信大家都可以輕鬆掌握 PHP 爬取鍊家租屋資訊的方法了。具體而言，我們需要使用cURL 函數進行網頁原始碼的獲取，使用正規表示式匹配出所需資訊所在的HTML 元素，使用DOMDocument 類別進行HTML 標籤的解析操作，最後將所需資訊整合到關聯數組中，並輸出整個數組，以獲取最終所需的租房資訊。

以上是PHP 爬取鏈屋租屋資訊的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章！