社区

学习

工具库

AI工具

休闲

简体中文

首页

web前端

html教程

Heritrix只爬取html、htm等特定页面_html/css_WEB-ITnose

Heritrix只爬取html、htm等特定页面_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 24, 2016 am 11:44 AM

Heritrix有5条链，网上有说在Extractor链里做处理，该链是抽取链，可以负责解析html页面的内容，然后进一步筛选。但是我目前只想通过判断后缀名筛选出html、htm、shtml、xshtml等文件。因此这样在Extractor里做处理就有点牛刀小用的意思，因此我在PostProcessor链里做处理。详细介绍如下：

FronitierScheduler是一种PostProcessor，它的作用是将Extractor中分析得到链接加入到Froniter中，以供下一步处理（写文件处理等等）。

具体方法：

1.找到org.archive.crawler.postprocessor包下的FrontierScheduler.java文件

2.找到FrontierScheduler类的protected void schedule(CandidateURI caUri)方法

3.我的改写如下：

<span style="font-size:14px;">     protected void schedule(CandidateURI caUri) {        //将caUri转为String格式        String url = caUri.toString();        //打印出来查看一下        System.out.println("------" + url);        //剔除以特定后缀名结尾的URL        if(url.endsWith(".jpeg")    			||url.endsWith(".jpg")    			||url.endsWith(".gif")    			||url.endsWith(".css")    			||url.endsWith(".doc")    			||url.endsWith(".zip")    			||url.endsWith(".png")    			||url.endsWith(".js")    			||url.endsWith(".pdf")    			||url.endsWith(".xls")    			||url.endsWith(".rar")    			||url.endsWith(".exe")    			||url.endsWith(".txt")){    		return;    	}                //将未剔除的文件加入到下一步处理（写入到本地磁盘的处理等等）        getController().getFrontier().schedule(caUri);             }</span>

登录后复制

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

显示更多

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

4 周前 By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

4 周前 By 尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

2 周前 By DDD

R.E.P.O.如果您听不到任何人，如何修复音频

4 周前 By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解锁Myrise中的所有内容

1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

显示更多

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7515

15

CakePHP 教程

1378

52

steam的账户名称是什么格式

79

11

win11激活密钥永久

53

19

NYT连接提示和答案

19

64

显示更多

Related knowledge

＆gt; gt;的目的是什么元素？

＆gt; gt;的目的是什么元素？ Mar 21, 2025 pm 12:34 PM

本文讨论了HTML＆lt; Progress＆gt;元素，其目的，样式和与＆lt; meter＆gt;元素。主要重点是使用＆lt; progress＆gt;为了完成任务和LT;仪表＆gt;对于stati

＆lt; datalist＆gt;的目的是什么。元素？

＆lt; datalist＆gt;的目的是什么。元素？ Mar 21, 2025 pm 12:33 PM

本文讨论了html＆lt; datalist＆gt;元素，通过提供自动完整建议，改善用户体验并减少错误来增强表格。Character计数：159

HTML5中跨浏览器兼容性的最佳实践是什么？

HTML5中跨浏览器兼容性的最佳实践是什么？ Mar 17, 2025 pm 12:20 PM

文章讨论了确保HTML5跨浏览器兼容性的最佳实践，重点是特征检测，进行性增强和测试方法。

＆lt; meter＆gt;的目的是什么。元素？

＆lt; meter＆gt;的目的是什么。元素？ Mar 21, 2025 pm 12:35 PM

本文讨论了HTML＆lt; meter＆gt;元素，用于在一个范围内显示标量或分数值及其在Web开发中的常见应用。它区分了＆lt; meter＆gt;从＆lt; progress＆gt;和前

如何使用HTML5表单验证属性来验证用户输入？

如何使用HTML5表单验证属性来验证用户输入？ Mar 17, 2025 pm 12:27 PM

本文讨论了使用HTML5表单验证属性，例如必需的，图案，最小，最大和长度限制，以直接在浏览器中验证用户输入。

视口元标签是什么？为什么对响应式设计很重要？

视口元标签是什么？为什么对响应式设计很重要？ Mar 20, 2025 pm 05:56 PM

本文讨论了视口元标签，这对于移动设备上的响应式Web设计至关重要。它解释了如何正确使用确保最佳的内容缩放和用户交互，而滥用可能会导致设计和可访问性问题。

＆lt; iframe＆gt;的目的是什么。标签？使用时的安全考虑是什么？

＆lt; iframe＆gt;的目的是什么。标签？使用时的安全考虑是什么？ Mar 20, 2025 pm 06:05 PM

本文讨论了＆lt; iframe＆gt;将外部内容嵌入网页，其常见用途，安全风险以及诸如对象标签和API等替代方案的目的。

Gitee Pages静态网站部署失败：单个文件404错误如何排查和解决？

Gitee Pages静态网站部署失败：单个文件404错误如何排查和解决？ Apr 04, 2025 pm 11:54 PM

GiteePages静态网站部署失败：404错误排查与解决在使用Gitee...

See all articles