程序员还看带广告的小说？-php教程-PHP中文网

首页

后端开发

php教程

程序员还看带广告的小说？

L先生

May 06, 2020 pm 06:41 PM

程序员

有人习惯看小说，偶尔会看几章，都是百度出来，但是基本都有特别烦人的广告，要么在整体div添加链接，误触就会跳转到一些网站甚至是死循环，某些手机app也是广告很多，所以无事在写一个小程序免除广告的烦扰

本文将使用php curl采集页面simple_html_dom解析，实现真正的去除广告。

随便找一个小说网站找一本书，不过这个站点在手机端是特别坑的，就有上述问题：

QQ截图20200506151029.png

就拿这本小说来开刀。（声明：绝对不是推广，侵删）

一、了解curl的get方式

curl是一个命令行工具，通过指定的URL来上传或下载数据，并将数据展示出来。curl中的c表示client，而URL，就是URL。

PHP中使用cURL可以实现Get和Post请求的方法

简单的抓取小说仅需要get方法即可。

下面这个示例代码就是通过get请求获取第一章小说页面html的示例，只需要更改url参数即可。

初始化、设置选项、证书验证、执行、关闭

<?php
header("Content-Type:text/html;charset=utf-8");
$url="https://www.7kzw.com/85/85445/27248636.html";
$ch = curl_init($url);   //初始化
//设置选项
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);//获取的信息以字符串返回,而不是直接输出(必须) 
curl_setopt($ch,CURLOPT_TIMEOUT,10);//超时时间（必须）
curl_setopt($ch, CURLOPT_HEADER,0);// 	启用时会将头文件的信息作为数据流输出。 
//参数为1表示输出信息头,为0表示不输出
curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,false); //不验证证书
// 3.执行
$res = curl_exec($ch);
// 4.关闭
curl_close($ch);
print_r($res);
?>

登录后复制

注释就特别详细了，按照步骤，发送curl的get请求，如果是post请求则需要多加一条设置post选项的设置，并且传参，最后输出获得的信息，运行结果如下，是没有css渲染的。

QQ截图20200506152018.png

二、解析页面

输出的页面有很多不需要的内容，需要在所有内容中提取出我们需要的内容，比如标题和每章的内容，这时需要解析页面。

解析页面的方法也有很多，在这里使用的是simple_html_dom，需要下载引用simple_html_dom.php这个类，实例对象，并调用内部的方法。具体方法可以到官网查看，或者中文网其他文档。

先分析这个小说页面的源代码，看这章的标题和内容对应的元素

首先是标题:在类bookname下的h1下

QQ截图20200506152426.png

然后是内容：在id为content的div下

QQ截图20200506152654.png

simple_html_dom的可以使用find方法，类似jquery一样使用选择器查找定位元素。如：

find('.bookname h1'); //查找类bookname 下的h1标题元素
find('#content'); //查找id为content的章节内容

代码在以上的基础上新增：

include "simple_html_dom.php";
$html = new simple_html_dom();
@$html->load($res);
$h1 = $html->find(&#39;.bookname h1&#39;);
foreach ($h1 as $k=>$v) {
	$artic[&#39;title&#39;] = $v->innertext;
}
// 查找小说的具体内容
$divs = $html->find(&#39;#content&#39;);
foreach ($divs as $k=>$v) {
	$content = $v->innertext;
}
// 正则替换去除多余部分
$pattern = "/(<p>.*?<\/p>)|(<div .*?>.*?<\/div>)/";
$artic[&#39;content&#39;] = preg_replace($pattern,&#39;&#39;,$content);
echo $artic[&#39;title&#39;].&#39;<br>&#39;;
echo $artic[&#39;content&#39;];

登录后复制

使用以上的解析方法获得的内容是数组，使用foreach来获得数组内容，使用了正则替换将正文文字广告去除，将标题和小说内容放到数组内。最简单的写法就写好了。运行结果如下：

QQ截图20200506153415.png

当然这种写法看着比较难受，可以自行封装函数类。如下就是我自己写好的代码示例了，当然肯定有不足的地方，但是可以作为参考扩展。

<?php 
include "simple_html_dom.php";
include "mySpClass.php";
header("Content-Type:text/html;charset=utf-8");
$get_html = get_html($_GET[&#39;n&#39;]);
$artic = getContent($get_html);
echo $artic[&#39;title&#39;].&#39;<br>&#39;;
echo $artic[&#39;content&#39;];
/**
* 获取www.7kzw.com 获取每一章的页面html
* @param type $num 第几章,从第一开始(int)
* @return 返回字符串  
*/
function get_html($num){
	$start = 27248636;
	$real_num = $num+$start-1;
	$url = &#39;https://www.7kzw.com/85/85445/&#39;.$real_num.&#39;.html&#39;;
	$header = [
	&#39;User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0&#39;
	]; 
	return mySpClass()->getCurl($url,$header);
}
/**
* 获取www.7kzw.com小说标题数组
* @param type $get_html 得到的每一章的页面html
* @return 返回$artic数组,[&#39;title&#39;=>&#39;&#39;,&#39;content&#39;=>&#39;&#39;]
*/
function getContent($get_html){
	$html = new simple_html_dom();
	@$html->load($get_html);
	$h1 = $html->find(&#39;.bookname h1&#39;);
	foreach ($h1 as $k=>$v) {
		$artic[&#39;title&#39;] = $v->innertext;
	}
	// 查找小说的具体内容
	$divs = $html->find(&#39;#content&#39;);
	foreach ($divs as $k=>$v) {
		$content = $v->innertext;
	}
	// 正则替换去除多余部分
	$pattern = "/(<p>.*?<\/p>)|(<div .*?>.*?<\/div>)/";
	$artic[&#39;content&#39;] = preg_replace($pattern,&#39;&#39;,$content);
	return $artic;
}
?>

登录后复制

<?php
class mySpClass{
	//单例对象
    private static $ins = null;
    /**
     * 单例化对象
     */
    public static function exec()
    {
        if (self::$ins) {
            return self::$ins;
        }
        return self::$ins = new self();
    }
    
    /**
     * 禁止克隆对象
     */
    public function __clone()
    {
        throw new curlException(&#39;错误：不能克隆对象&#39;);
    }
	// 向服务器发送最简单的get请求
	public static function getCurl($url,$header){
		// 1.初始化
		$ch = curl_init($url);   //请求的地址
		// 2.设置选项
		curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);//获取的信息以字符串返回,而不是直接输出(必须) 
		curl_setopt($ch,CURLOPT_TIMEOUT,10);//超时时间（必须）
		curl_setopt($ch, CURLOPT_HEADER,0);// 	启用时会将头文件的信息作为数据流输出。 
		//参数为1表示输出信息头,为0表示不输出
		curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,false); //不验证证书
		curl_setopt($ch,CURLOPT_SSL_VERIFYHOST,false); //不验证证书
		if(!empty($header)){
			curl_setopt($ch,CURLOPT_HTTPHEADER,$header);//设置头信息
		}
		// 3.执行
		$res = curl_exec($ch);
		// 4.关闭
		curl_close($ch);
		return $res;
	}
}
//curl方法不存在就设置一个curl方法
if (!function_exists(&#39;mySpClass&#39;)) {
    function mySpClass() {
        return mySpClass::exec();
    }
}
?>

登录后复制

以上示例代码的最终运行结果：第几章就输入数字几，通过$_GET['n']传参

QQ截图20200506154010.png

总结：

知识点：curl(tips：curl模块采集任意网页php类)，正则，解析工具simple_html_dom

虽然写法已经初步完善，但是最好能过部署的自己的服务器才能有最好的效果，不然只能在电脑观看，也不见得多方便，可能更愿意忍忍广告了。

以上就是使用php curl采集页面并使用simple_html_dom解析的详细内容，更多请关注php中文网其它相关文章！

以上是程序员还看带广告的小说？的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7712

Java教程

1640

CakePHP 教程

1394

Laravel 教程

1288

PHP教程

1232

显示更多

Related knowledge

AI程序员哪家强？探索Devin、通义灵码和SWE-agent的潜力 Apr 07, 2024 am 09:10 AM

2022年3月3日，距世界首个AI程序员Devin诞生不足一个月，普林斯顿大学的NLP团队开发了一个开源AI程序员SWE-agent。它利用GPT-4模型在GitHub存储库中自动解决问题。SWE-agent在SWE-bench测试集上的表现与Devin相似，平均耗时93秒，解决了12.29%的问题。SWE-agent通过与专用终端交互，可以打开、搜索文件内容，使用自动语法检查、编辑特定行，以及编写和执行测试。（注：以上内容为原内容微调，但保留了原文中的关键信息，未超过指定字数限制。）SWE-A

揭秘C语言的吸引力: 发掘程序员的潜质 Feb 24, 2024 pm 11:21 PM

学习C语言的魅力：解锁程序员的潜力随着科技的不断发展，计算机编程已经成为了一个备受关注的领域。在众多编程语言中，C语言一直以来都备受程序员的喜爱。它的简单、高效以及广泛应用的特点，使得学习C语言成为了许多人进入编程领域的第一步。本文将讨论学习C语言的魅力，以及如何通过学习C语言来解锁程序员的潜力。首先，学习C语言的魅力在于其简洁性。相比其他编程语言而言，C语

520程序员专属浪漫表白方式！无法拒绝！ May 19, 2022 pm 03:07 PM

520将至，年度虐汪大戏他又双叒叕来啦！想看看最理性的代码和最浪漫的告白究竟能碰撞出怎样的火花？下面带你逐一领略最全最完整的告白代码，看看程序员们的浪漫是否能够掳获各位心目中女神的芳心呢？

2023过年，又限制放烟花？程序猿有办法！ Jan 20, 2023 pm 02:57 PM

本篇文章给大家介绍如何用前端代码实现一个烟花绽放的绚烂效果，其实主要就是用前端三剑客来实现，也就是HTML+CSS+JS，下面一起来看一下，作者会解说相应的代码，希望对需要的朋友有所帮助。

接私活挣钱！2023程序员接单平台大全！ Jan 09, 2023 am 09:50 AM

上周我们做了一次关于《2023PHP创业》的公益直播，很多同学咨询具体有哪些接单平台，下面php中文网整理了22个还算靠谱的平台，以供参考！

程序员是做什么的 Aug 03, 2019 pm 01:40 PM

程序员的工作职责：1、负责软件项目的详细设计、编码和内部测试的组织实施；2、协助项目经理和相关人员同客户进行沟通，保持良好的客户关系；3、参与需求调研、项目可行性分析、技术可行性分析和需求分析；4、熟悉并熟练掌握交付软件部开发的软件项目的相关软件技术；5、负责向项目经理及时反馈软件开发中的情况；6、参与软件开发和维护过程中重大技术问题的解决；7、负责相关技术文档的拟订等等。

浅析怎么下载安装VSCode历史版本 Apr 17, 2023 pm 07:18 PM

VSCode历史版本的下载安装 VSCode安装下载安装参考资料 VSCode安装 Windows版本：Windows10 VSCode版本：VScode1.65.0（64位User版本）本文

2022年最佳的Windows 11终端仿真器列表：Top 15款推荐 Apr 24, 2023 pm 04:31 PM

终端仿真器允许您模仿标准计算机终端的功能。有了它，您可以执行数据传输并远程访问另一台计算机。当与Windows11等高级操作系统结合使用时，这些工具的创造性可能性是无穷无尽的。但是，有很多第三方终端仿真器可用。因此，很难选择合适的。但是，正如我们对必备的Windows11应用所做的那样，我们选择了您可以使用的最佳终端并提高您的工作效率。我们如何选择最好的Windows11终端模拟器？在选择此列表中的工具之前，我们的专家团队首先测试了它们与Windows11的兼容性。我们还检查了他们

See all articles

程序员还看带广告的小说？

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题