首页 数据库 mysql教程 Hadoop-Nutch学习整理(持续更新)

Hadoop-Nutch学习整理(持续更新)

Jun 07, 2016 pm 04:10 PM
nutch 学习 整理 更新

Nutch学习整理第一部分 单机尝试1、安装部署Nutch的部署和其他Hadoop生态产品的部署流程基本相:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类资料,不再赘述。Nutch的配置文件主要有两个: domain-urlfilter.txt 是用来配置所爬取网站的范

Nutch学习整理 第一部分 单机尝试 1、安装部署 Nutch的部署和其他Hadoop生态产品的部署流程基本相似:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类似资料,不再赘述。 Nutch的配置文件主要有两个:
  • domain-urlfilter.txt 是用来配置所爬取网站的范围,域名和它的子网页的正则表达式,类似于爬取规则。一般配置为: # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
    • nutch-site.xml 这类似于对我要爬取的网站进行一下声明,不声明的话,会导致爬取失败。
      2、单机主要爬取命令 简单命令格式,不赘述。 bin/nutch crawl [-dir d] [-threads n] [-depth i] [-topN]
      3、爬取结果解析 nutch爬取下来的网页信息,保存路径格式如下: \ \

      主要爬取信息保存在路径segments下:

      \\

      \

      \

      喎?http://www.2cto.com/kf/ware/vc/" target="_blank" class="keylink">vcD4KPHVsPgo8bGk+Q3Jhd2xkYsrHy/nT0NDo0qrXpcihtcSzrMGsvdPQxc+iKLTmt8XPwtTYtcRVUkyjrLywz8LU2LXEyNXG2qOs08PAtNKzw+a4/NDCvOyy6cqxvOSjrNK7sOPU2sXAyKHE2sjdveLO9sq9sru74dPDtb2jqTxsaT5MaW5rZGLW0LTmt8W1xMrHy/nT0LOsway907ywxuTDv7j2way907XEwazI67XY1re6zcOqzsSxvqGjPGxpPlNlZ21lbnRztOa3xdelyKG1xNKzw+ajrNPryc/D5sG0vdPJ7rbIIGRlcHRoIM/gudijrGRlcHRoyejOqry41PLU2iBzZWdtZW50c8/Cyfqzyby4uPbS1MqxvOTD/MP7tcTX087EvP680KGjz8LA/b3YzbzKxwogLWRlcHRoPTMKCjxpbWcgc3JjPQ=="http://www.2cto.com/uploadfile/Collfiles/20141127/2014112709151123.jpg" alt="\">
      Segments下的文件夹含义:

      • crawl_generate :names a set of urls to be fetched
      • crawl_fetch : contains the status of fetching each url
      • crawl_parse : contains the outlink urls, used to update the crawldb
      • content : contains the content of each url
      • parse_text : contains the parsed text of each url
      • parse_data : contains outlinks and metadata parsed from each url

        Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate最初生成(待下载URL集合);crawl_fetch(每个下载URL的状态)、content在抓取时生成;crawl_parse(包含用来更新crawldb的外链)、parse_data、parse_text在解析抓取的数据文件时生成。 在进行爬取结果导出的时候,六个参数(-nocontent -nofetch -noparse -noparsedata -noparsetext -nogenerate)分别对应需要导出的内容。 导出命令例: [root@master local]# bin/nutch readseg -dump data_1125/segments/20141125020224 data_dump -nocontent -nofetch -nogenerate -noparse -noparsedata








本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

暴雪战网更新一直卡在45%怎么解决? 暴雪战网更新一直卡在45%怎么解决? Mar 16, 2024 pm 06:52 PM

  暴雪战网更新一直卡在45%怎么解决?近期有很多人在更新软件的时候,都是卡在45%的进度条,重启多次还是会卡住,那么这种情况应该要如何解决,我们可以通过重新安装客户端、切换地区、删除文件的方式来处理,本期软件教程就来分享操作步骤,希望能够给更多的人带来帮助。  暴雪战网更新一直卡在45%怎么解决  一、客户端  1、首先需要确认你的客户是官网下载的官方版本。  2、如果不是的话,用户可以进入亚服网址来进行下载。  3、进入以后点击右上角的下载就可以了。  注意:安装的时候一定不要选择简体中文。

如何在Ubuntu 24.04上安装Angular 如何在Ubuntu 24.04上安装Angular Mar 23, 2024 pm 12:20 PM

Angular.js是一种可自由访问的JavaScript平台,用于创建动态应用程序。它允许您通过扩展HTML的语法作为模板语言,以快速、清晰地表示应用程序的各个方面。Angular.js提供了一系列工具,可帮助您编写、更新和测试代码。此外,它还提供了许多功能,如路由和表单管理。本指南将讨论在Ubuntu24上安装Angular的方法。首先,您需要安装Node.js。Node.js是一个基于ChromeV8引擎的JavaScript运行环境,可让您在服务器端运行JavaScript代码。要在Ub

Windows无法访问指定设备、路径或文件 Windows无法访问指定设备、路径或文件 Jun 18, 2024 pm 04:49 PM

小伙伴电脑出现这样的故障,打开“此电脑”和C盘文件会提示“Explorer.EXEWindows无法访问指定设备、路径或文件。你可能没有适当的权限访问访问该项目。”包括文件夹、文件、此电脑、回收站等,双击都会弹出这样的窗口,右键打开又是正常的。这是系统更新导致,如果你也遇到这样的情况,下面小编教大家如何解决。一,打开注册表编辑器Win+R,输入regedit,或右键开始菜单运行输入regedit;二,定位注册表“计算机\HKEY_CLASSES_ROOT\PackagedCom\ClassInd

微星显卡驱动怎么更新?微星显卡驱动下载安装步骤 微星显卡驱动怎么更新?微星显卡驱动下载安装步骤 Mar 13, 2024 pm 08:49 PM

  微星显卡是市面上主流的显卡品牌,我们知道显卡都需要安装驱动才能发挥性能,并保证兼容性。那么微星显卡驱动要怎么更新到最新版本呢?一般微星显卡驱动可以官网下载驱动安装,下面就来了解一下吧。  显卡驱动更新方法:  1.首先我们进入“微星官网”。  2.进入后点击右上角“搜索”按钮并输入自己的显卡型号。  3.然后找到对应的显卡点开详情页。  4.随后进入上方“技术支持”选项。  5.最后在“驱动&下载”

Windows永久暂停更新,Windows关闭自动更新 Windows永久暂停更新,Windows关闭自动更新 Jun 18, 2024 pm 07:04 PM

Windows更新可能导致以下一些问题:1.兼容性问题:某些应用程序、驱动程序或硬件设备可能与新的Windows更新不兼容,导致它们无法正常工作或崩溃。2.性能问题:有时,Windows更新可能会导致系统变得更慢或出现性能下降的情况。这可能是由于新的功能或改进需要更多资源来运行。3.系统稳定性问题:某些用户报告称,在安装Windows更新后,系统可能会出现意外的崩溃或蓝屏错误。4.数据丢失:在罕见的情况下,Windows更新可能会导致数据丢失或文件损坏。这是为什么在进行任何重要的更新之前,备份您

Outlook在更新收件箱时卡住了; Outlook在更新收件箱时卡住了; Mar 25, 2024 am 09:46 AM

当Outlook在更新收件箱时发生问题,可能会影响工作效率。本文将介绍一些简单的故障排除步骤,帮助您解决问题并让Outlook恢复正常。为什么Outlook总是卡在收件箱更新上?Outlook在更新收件箱时可能会出现卡顿的情况,常见原因包括网络问题、邮箱容量过大,以及防病毒软件或防火墙的影响。外部插件或数据文件损坏也可能导致这种情况发生。接下来,我们将详细探讨这些可能的原因,并提供解决方案。修复Outlook卡住更新收件箱如果Outlook无法更新你的收件箱,请参考下面列出的解决方案:重启前景禁

抖音怎么更新最新版本 抖音怎么更新最新版本 Mar 27, 2024 am 11:06 AM

1、打开抖音app,点击右下角的【我】,点击右上角的【三条杠】图标。2、选择【设置】,点击进入设置界面,找到并点击【通用设置】。3、在通用设置界面下拉,找到并点击【检查更新】。4、如果用户当前使用的版本不是最新版本,就会出现新版本的更新提示,点击【升级】。5、等待安装包下载完毕,系统会自动安装,点击【继续安装】即可。6、如果当前已经是最新版本,则会出现【没有可用的更新版本】的提

一起学习word根号输入办法 一起学习word根号输入办法 Mar 19, 2024 pm 08:52 PM

在word中编辑文字内容时,有时会需要输入公式符号。有的小伙们不知道在word根号输入的方法,小面就让小编跟小伙伴们一起分享下word根号输入的方法教程。希望对小伙伴们有所帮助。首先,打开电脑上的Word软件,然后打开要编辑的文件,并将光标移动到需要插入根号的位置,参考下方的图片示例。2.选择【插入】,再选择符号里的【公式】。如下方的图片红色圈中部分内容所示:3.接着选择下方的【插入新公式】。如下方的图片红色圈中部分内容所示:4.选择【根式】,再选择合适的根号。如下方的图片红色圈中部分内容所示:

See all articles