程式設計師還看有廣告的小說？-php教程-PHP中文網

首頁

後端開發

php教程

程式設計師還看有廣告的小說？

L先生

May 06, 2020 pm 06:41 PM

程式設計師

有人習慣看小說，偶爾會看幾章，都是百度出來，但是基本都有特別煩人的廣告，要么在整體div添加鏈接，誤觸就會跳到一些網站甚至是死循環，某有些手機app也是廣告很多，所以無事在寫一個小程式免除廣告的煩擾

本文將使用php curl採集頁面simple_html_dom解析，實現真正的去除廣告。

隨便找一個小說網站找一本書，不過這個網站在手機端是特別坑的，就有上述問題：

程式設計師還看有廣告的小說？

##就拿這本小說來開刀。（宣告：絕對不是推廣，侵刪）

一、了解curl的get方式

curl是一個命令列工具，透過指定的URL來上傳或下載數據，並將數據展示出來。 curl中的c表示client，而URL，就是URL。

PHP中使用cURL可以實作Get和Post請求的方法

簡單的抓取小說只需要get方法即可。

下面這個範例程式碼就是透過get請求取得第一章小說頁面html的範例，只需要更改url參數。

初始化、設定選項、憑證驗證、執行、關閉

<?php
header("Content-Type:text/html;charset=utf-8");
$url="https://www.7kzw.com/85/85445/27248636.html";
$ch = curl_init($url);   //初始化
//设置选项
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);//获取的信息以字符串返回,而不是直接输出(必须) 
curl_setopt($ch,CURLOPT_TIMEOUT,10);//超时时间（必须）
curl_setopt($ch, CURLOPT_HEADER,0);// 	启用时会将头文件的信息作为数据流输出。 
//参数为1表示输出信息头,为0表示不输出
curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,false); //不验证证书
// 3.执行
$res = curl_exec($ch);
// 4.关闭
curl_close($ch);
print_r($res);
?>

登入後複製

註解就特別詳細了，依照步驟，發送curl的get請求，如果是post請求則需要多加一條設置post選項的設置，並且傳參，最後輸出獲得的信息，運行結果如下，是沒有css渲染的。

程式設計師還看有廣告的小說？

二、解析頁面

#輸出的頁面有很多不需要的內容，需要在所有內容中提取出我們需要的內容，例如標題和每章的內容，這時需要解析頁面。

解析頁面的方法也有很多，這裡使用的是simple_html_dom，需要下載引用simple_html_dom.php這個類，實例對象，並呼叫內部的方法。具體方法可以到官網查看，或是中文網其他文件。

先分析這個小說頁面的源代碼，看這章的標題和內容對應的元素

#首先是標題:在類bookname下的h1下

程式設計師還看有廣告的小說？

然後是內容：在id為content的div下

程式設計師還看有廣告的小說？

simple_html_dom的可以使用find方法，類似jquery一樣使用選擇器尋找定位元素。如：

find('.bookname h1'); //查找類別bookname 下的h1標題元素

find('#content'); //查找id為content的章節內容

程式碼在以上的基礎上新增：

include "simple_html_dom.php";
$html = new simple_html_dom();
@$html->load($res);
$h1 = $html->find(&#39;.bookname h1&#39;);
foreach ($h1 as $k=>$v) {
	$artic[&#39;title&#39;] = $v->innertext;
}
// 查找小说的具体内容
$divs = $html->find(&#39;#content&#39;);
foreach ($divs as $k=>$v) {
	$content = $v->innertext;
}
// 正则替换去除多余部分
$pattern = "/(<p>.*?<\/p>)|(<div .*?>.*?<\/div>)/";
$artic[&#39;content&#39;] = preg_replace($pattern,&#39;&#39;,$content);
echo $artic[&#39;title&#39;].&#39;<br>&#39;;
echo $artic[&#39;content&#39;];

登入後複製

使用以上的解析方法所獲得的內容為數組，並使用foreach來獲得數組內容，使用了正規替換將正文文字廣告去除，將標題和小說內容放到數組內。最簡單的寫法就寫好了。運行結果如下：

程式設計師還看有廣告的小說？

當然這種寫法看著比較難受，可以自行封裝函數類別。如下就是我自己寫好的程式碼範例了，當然肯定有不足的地方，但是可以作為參考擴充功能。

<?php 
include "simple_html_dom.php";
include "mySpClass.php";
header("Content-Type:text/html;charset=utf-8");
$get_html = get_html($_GET[&#39;n&#39;]);
$artic = getContent($get_html);
echo $artic[&#39;title&#39;].&#39;<br>&#39;;
echo $artic[&#39;content&#39;];
/**
* 获取www.7kzw.com 获取每一章的页面html
* @param type $num 第几章,从第一开始(int)
* @return 返回字符串  
*/
function get_html($num){
	$start = 27248636;
	$real_num = $num+$start-1;
	$url = &#39;https://www.7kzw.com/85/85445/&#39;.$real_num.&#39;.html&#39;;
	$header = [
	&#39;User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0&#39;
	]; 
	return mySpClass()->getCurl($url,$header);
}
/**
* 获取www.7kzw.com小说标题数组
* @param type $get_html 得到的每一章的页面html
* @return 返回$artic数组,[&#39;title&#39;=>&#39;&#39;,&#39;content&#39;=>&#39;&#39;]
*/
function getContent($get_html){
	$html = new simple_html_dom();
	@$html->load($get_html);
	$h1 = $html->find(&#39;.bookname h1&#39;);
	foreach ($h1 as $k=>$v) {
		$artic[&#39;title&#39;] = $v->innertext;
	}
	// 查找小说的具体内容
	$divs = $html->find(&#39;#content&#39;);
	foreach ($divs as $k=>$v) {
		$content = $v->innertext;
	}
	// 正则替换去除多余部分
	$pattern = "/(<p>.*?<\/p>)|(<div .*?>.*?<\/div>)/";
	$artic[&#39;content&#39;] = preg_replace($pattern,&#39;&#39;,$content);
	return $artic;
}
?>

登入後複製

<?php
class mySpClass{
	//单例对象
    private static $ins = null;
    /**
     * 单例化对象
     */
    public static function exec()
    {
        if (self::$ins) {
            return self::$ins;
        }
        return self::$ins = new self();
    }
    
    /**
     * 禁止克隆对象
     */
    public function __clone()
    {
        throw new curlException(&#39;错误：不能克隆对象&#39;);
    }
	// 向服务器发送最简单的get请求
	public static function getCurl($url,$header){
		// 1.初始化
		$ch = curl_init($url);   //请求的地址
		// 2.设置选项
		curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);//获取的信息以字符串返回,而不是直接输出(必须) 
		curl_setopt($ch,CURLOPT_TIMEOUT,10);//超时时间（必须）
		curl_setopt($ch, CURLOPT_HEADER,0);// 	启用时会将头文件的信息作为数据流输出。 
		//参数为1表示输出信息头,为0表示不输出
		curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,false); //不验证证书
		curl_setopt($ch,CURLOPT_SSL_VERIFYHOST,false); //不验证证书
		if(!empty($header)){
			curl_setopt($ch,CURLOPT_HTTPHEADER,$header);//设置头信息
		}
		// 3.执行
		$res = curl_exec($ch);
		// 4.关闭
		curl_close($ch);
		return $res;
	}
}
//curl方法不存在就设置一个curl方法
if (!function_exists(&#39;mySpClass&#39;)) {
    function mySpClass() {
        return mySpClass::exec();
    }
}
?>

登入後複製

以上範例程式碼的最終運行結果：第幾章就輸入數字幾，透過$_GET['n']傳參

程式設計師還看有廣告的小說？

總結：

知識點：curl(tips：

curl模組採集任意網頁php類別)，正則，解析工具simple_html_dom

雖然寫法已經初步完善，但是最好能過部署的自己的伺服器才能有最好的效果，不然只能在電腦觀看，也不見得多方便，可能更願意忍忍廣告了。

以上就是使用php curl採集頁面並使用simple_html_dom解析的詳細內容，更多請關注php中文網其它相關文章！

以上是程式設計師還看有廣告的小說？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7722

Java教學

1642

CakePHP 教程

1396

Laravel 教程

1289

PHP教程

1233

Related knowledge

AI程式設計師哪家強？探索Devin、通靈靈碼和SWE-agent的潛力 Apr 07, 2024 am 09:10 AM

2022年3月3日，距離世界首個AI程式設計師Devin誕生不足一個月，普林斯頓大學的NLP團隊開發了一個開源AI程式設計師SWE-agent。它利用GPT-4模型在GitHub儲存庫中自動解決問題。 SWE-agent在SWE-bench測試集上的表現與Devin相似，平均耗時93秒，解決了12.29%的問題。 SWE-agent透過與專用終端交互，可以開啟、搜尋文件內容，使用自動語法檢查、編輯特定行，以及編寫和執行測試。（註：以上內容為原始內容微調，但保留了原文中的關鍵訊息，未超過指定字數限制。）SWE-A

520程式設計師專屬浪漫告白方式！無法拒絕！ May 19, 2022 pm 03:07 PM

520將至，年度虐汪大戲他又雙叒叕來啦！想看看最理性的密碼和最浪漫的告白究竟能碰撞出怎樣的火花？以下帶你逐一領略最全最完整的告白代碼，看看程式設計師們的浪漫是否能擄獲各位心目中女神的芳心呢？

揭秘C語言的吸引力: 發掘程式設計師的潛質 Feb 24, 2024 pm 11:21 PM

學習C語言的魅力：解鎖程式設計師的潛力隨著科技的不斷發展，電腦程式設計已經成為了一個備受關注的領域。在眾多程式語言中，C語言一直以來都備受程式設計師的喜愛。它的簡單、高效以及廣泛應用的特點，使得學習C語言成為了許多人進入程式設計領域的第一步。本文將討論學習C語言的魅力，以及如何透過學習C語言來解鎖程式設計師的潛力。首先，學習C語言的魅力在於其簡潔性。相較於其他程式語言而言，C語

2023过年，又限制放烟花？程序猿有办法！ Jan 20, 2023 pm 02:57 PM

本篇文章给大家介绍如何用前端代码实现一个烟花绽放的绚烂效果，其实主要就是用前端三剑客来实现，也就是HTML+CSS+JS，下面一起来看一下，作者会解说相应的代码，希望对需要的朋友有所帮助。

接私活賺錢！ 2023程式設計師接單平台大全！ Jan 09, 2023 am 09:50 AM

上週我們做了一次關於《2023PHP創業》的公益直播，很多同學諮詢具體有哪些接單平台，下面php中文網整理了22個還算可靠的平台，以供參考！

程式設計師是做什麼的 Aug 03, 2019 pm 01:40 PM

程式設計師的工作職責：1、負責軟體專案的詳細設計、編碼和內部測試的組織實施；2、協助專案經理和相關人員同客戶進行溝通，保持良好的客戶關係；3、參與需求研究、專案可行性分析、技術可行性分析與需求分析；4、熟悉並熟練交付軟體部開發的軟體專案的相關軟體技術；5、負責向專案經理及時回饋軟體開發的情況；6、參與軟體開發與維護過程中重大技術問題的解決；7、負責相關技術文件的擬訂等等。

淺析怎麼下載安裝VSCode歷史版本 Apr 17, 2023 pm 07:18 PM

VSCode歷史版本的下載安裝 VSCode安裝下載安裝參考資料 VSCode安裝 Windows版本：Windows10 VSCode版本：VScode1.65.0（64位元User版本）本文

2022年最佳的Windows 11終端機模擬器清單：Top 15款推薦 Apr 24, 2023 pm 04:31 PM

終端仿真器可讓您模仿標準電腦終端的功能。有了它，您可以執行資料傳輸並遠端存取另一台電腦。當與Windows11等高階作業系統結合使用時，這些工具的創造性可能性是無窮無盡的。但是，有很多第三方終端模擬器可用。因此，很難選擇合適的。但是，正如我們對必備的Windows11應用程式所做的那樣，我們選擇了您可以使用的最佳終端並提高您的工作效率。我們如何選擇最好的Windows11終端模擬器？在選擇此清單中的工具之前，我們的專家團隊首先測試了它們與Windows11的兼容性。我們也檢查了他們

See all articles

程式設計師還看有廣告的小說？

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題