dedecms采集怎么用
以织梦官方站为例,我们采集站长学院下的PHP教程栏目,打开列表地址http://www.dedecms.com/web-art/PHP_jiaocheng。
登录后台,进入“采集节点管理”,新建一个节点,选择内容模型为“普通文章”。
1.设置节点基本信息 (推荐学习:dedecms教程)
先填写一个方便记忆的节点名称,选择目标页面编码为GB2312,防盗链模式不做设置,因目标站没做限制,这一项就不做修改,系统默认超时时间10秒。
2.设置列表网址获取规则
这一步我们要做些设置,获取文章列表地址,回到目标站列表页,观察分页间的变化,可以发现只有“14_”后的数字有规律的递增变化。
首页:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html
中间:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_(*).html
末页:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html
复制一个分页地址,回到“新增采集节点”页面,选择“来源属性”为“批量生成列表网址”,把粘贴地址到“匹配网址”中,修改规律变化处为(*),“批量生成地址设置”处(*)输入1到172,这里的意思是生成出列表第一页到最后172页的所有地址。
测试一下,在弹出框中我们可以看到循环出172条地址记录,很顺利的就设置好了。有时候会碰到较难获取的列表,那我们可以把把没规律的地址复制到”手工指定列表网址“文本框中来采集。
3.设置文章网址匹配规则
上面指定好了文章地址来源页,这一步就需要在这些页面中找出符合要求的文章地址页了。打开一个列表页面观察,左栏的方框中包含了我们需要的全部地址,这种情况区分明显的页面,可以利“区域开始的HTML”和“区域结束的HTMLL”设置进行过滤。
不过也可以使用其他方法。把鼠标移到各处链接地址,观察浏览器左下角显示的完整地址,我们需要的地址都包含“PHP_jiaocheng/20”,那我们把它填写到“必须包含”中。
两种方法都能够过滤出地址,碰上复杂页面,可以配合起来使用,加上正则,几乎没有筛选不出的地址,与下图对照。最后确定,进入下一步“网页内容获取规则”。
4.网页内容获取规则
上面介绍了列表设置的方法,接下来我们进入内容获取规则的设置,如果说采集是上菜的话,上面一到三步的作用,只是开胃菜为下面的主菜做引。接下来是介绍如何从目标站把文章内容采集过来,这一步是是整个采集中最为核心的部分。
继续回到织梦的PHP教程列表,随便打开一篇列表中的文章,这里我们以《正则表达式》这篇文章为例:http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html ,把该地址复制到“预览网址”;因为织梦所有文章都没分页,所以这里的分页就无需设置,直接进入“固定的采集项目”页面
(注:如果采集的内容含有分页,只需要将分页导航部分的匹配规则设置完成即可,这里有全部列出的分页列表、上下页形式或不完整的分页列表根据内容进行设置即可)
以下为引用的内容:
全部列出的分页列表:分页内容列出所有的链接,如下图所示
上下页形式或不完整的分页列表:单页显示当前分页内容,不完全显示的列表形式
5. 固定的采集项目
进入这一步,就开始对页面源码进行分析了,采集无非是分析HTML页面的结构,从而获取我们所需的内容。所以要求我们对HTML代码有一定的认识,能通过查看页面源文件,找出需要的内容,最好多开几个页面进行分析,找出相同处。
推荐大家使用Dreamweaver分析。在分析页面代码的时候,多使用搜索功能,会方便很多,特别是找到标签后,搜索一下看有无重复以减少分析错误。
1) 文章标题:这个页面的标题是“正则表达式”复制下它,在Dreamweaver按Ctrl+F键搜索全部,有30项记录。因为唯一性,这里我们选择105行这段“
正则表达式
”标签,复制到“固定采集项目”文章标题的匹配规则中,并用关键字“[内容]”替换标题,最终为[内容]
。2) 作者:以作者为关键字继续搜索,只有110行有唯一的出现,连同alluse前后的标签一起复制到匹配规则中,使用[内容]替换要采集处。
3) 来源:同上操作在109行找到标签,复制过去,使用[内容]替换要采集处。若来源包含超链接标签想去掉,则在过滤规则框,填写如下规则过滤掉:
<a([^>]*)> <br></a><br>
4) 发布时间:同上操作在111行处进行复制粘贴和修改。
5) 文章内容:搜索文章内容的开始部分,例如“第一部分”在118行发现目标,点击状态栏
发现未能全部选中文章内容,继续前一个
至此,内容的过滤都设置都完成了。
6. 节点采集
如果你的采集节点是一气呵成而且测试成功的话,按提示点击按钮,就可以直接采集了,但是节点是之前写的,就需到“节点管理页”勾选需采集节点,按“采集”按钮进行采集了。若你想采集所有节点的新内容,那就到监控采集页面进行操作吧。
每页采集可以设置每页采集的数据条数,一般来说不要设置太大,否则有可能导致系统处理不过来而部分采集不到,建议别超过15。
线程数是指每次有多少个线程同时进行采集,线程数的增加可以加快采集速度,但相应的会增加服务器资源的占用,所以请慎用。假若目标站点有防刷新限制,此处就可以根据目标站点的防刷新限制时间进行设置,假如没有就默认0秒可以了。
附加选项这三个设置从字面上应该可以很容易理解,这就根据你的实际需要进行选择了。
采集完成。
更多wordpress相关技术文章,请访问wordpress教程栏目进行学习!
以上是dedecms采集怎么用的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

帝国CMS模板下载位置:官方模板下载:https://www.phome.net/template/第三方模板网站:https://www.dedecms.com/diy/https://www.0978.com.cn/https://www.jiaocheng.com/安装方式:下载模板解压模板上传模板选择模板

在 Dedecms 中实现模板替换可以通过以下步骤:修改 global.cfg 文件,设置所需的语言包。修改 taglib.inc.php 钩子文件,添加对语言后缀模板文件的支持。创建带有语言后缀的新模板文件,修改所需内容。清除 Dedecms 缓存。

如何使用 Dedecms 上传本地视频?准备视频文件,确保格式符合 Dedecms 支持的格式。登录 Dedecms 管理后台,创建新的视频分类。在视频管理页面上传视频文件,填写相关信息并选择视频分类。在编辑文章时嵌入视频,输入上传视频的文件名并调整尺寸。

Dedecms是一款开源CMS,可用于创建各种类型的网站,包括:新闻网站博客网站电商网站论坛和社区网站教育网站门户网站其他类型的网站(例如企业网站、个人网站、相册网站、视频共享网站)

Dedecms 是一款开源中文 CMS 系统,提供内容管理、模板系统和安全保护等功能。具体使用方法包含以下步骤:1. 安装 Dedecms。2. 配置数据库。3. 登录管理界面。4. 创建内容。5. 设置模板。6. 管理用户。7. 维护系统。

精准可靠的dedecms转换工具评测报告随着互联网时代的快速发展,网站建设已经成为许多企业和个人必备的工具之一。在网站建设中,使用内容管理系统(CMS)可以更加便捷高效地管理网站内容和功能。其中,dedecms作为一款知名的CMS系统,被广泛应用于各种网站建设项目中。然而,有时候我们会面临着需要将dedecms网站转换为其他格式的需求,这时就需要用到转换工具

DedeCMS是一个开源的内容管理系统,会存在一些潜在的漏洞和安全风险:1、SQL注入漏洞,攻击者可以通过构造恶意的SQL查询语句来执行未经授权的操作或获取敏感数据;2、文件上传漏洞,攻击者可以上传包含恶意代码的文件到服务器上,从而执行任意代码或获取服务器权限;3、敏感信息泄露;4、未经身份验证的漏洞利用。

学习dedecms编码转换功能并不复杂,通过简单的代码示例,可以帮助您快速掌握这一技能。在dedecms中,编码转换功能通常用于处理中文乱码、特殊字符等问题,确保系统的正常运行和数据的准确性。下面将详细介绍如何使用dedecms的编码转换功能,让您轻松应对各种编码相关的需求。1.UTF-8转GBK在dedecms中,如果需要将UTF-8编码的字符串转换为G
