首页 数据库 mysql教程 在Eclipse中运行Nutch2.3

在Eclipse中运行Nutch2.3

Jun 07, 2016 pm 03:07 PM
eclipse 运行

参考http://wiki.apache.org/nutch/RunNutchInEclipse 一、环境准备 1、下载nutch2.3源代码 wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz 或者下载正在开发中的最新版本 svn co https://svn.apache.org/repos/asf/nutch/bra


参考http://wiki.apache.org/nutch/RunNutchInEclipse


一、环境准备

1、下载nutch2.3源代码

wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz
登录后复制
或者下载正在开发中的最新版本
 svn co https://svn.apache.org/repos/asf/nutch/branches/2.x
登录后复制


2、选择使用的数据库类型,以hbase为例
在conf/nutch-site.xml中增加以下属性:

<property>
  <name>storage.data.store.class</name>
  <value>org.apache.gora.hbase.store.HBaseStore</value>
  <description>Default class for storing data</description>
 </property>
登录后复制


3、在ivy/ivy.xml中增加与hbase相关的依赖项,此项本已存在,但被注释掉,将注释去掉即可

<dependency org="org.apache.gora" name="gora-hbase" rev="0.5" conf="*->default” />
注意,rev=0.5对应hbase0.94,rev=0.3对应hbase0.90.4


4、在nutch.xml中增加以下3个属性

<property>
   <name>http.agent.name</name>
   <value>My Nutch Spider</value>
 </property>
<property>
   <name>http.robots.agents</name>
   <value>none</value>
 </property>
<property>
   <name>plugin.folders</name>
   <value>/Users/liaoliuqing/0_Search/1_Nutch/1_Official/apache-nutch-2.3/build/plugins</value>
 </property>
其中plugin.folders的值为$NUTCH_HOME/build/plugins


5、执行ant eclipse


二、导入project

1、导入project


2、在build path中,将apche-nutch-2.3/conf放到最上面,即点击top按键

在Eclipse中运行Nutch2.3


三、运行程序

1、Run as ----> Run configuration,选择project与主类

在Eclipse中运行Nutch2.3

2、填写参数

/Users/liaoliuqing/Downloads/seed.txt

-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

在Eclipse中运行Nutch2.3

3、点击run,输出结果如下:

InjectorJob: starting at 2015-01-28 16:27:43
InjectorJob: Injecting urlDir: /Users/liaoliuqing/Downloads/seed.txt
InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.
InjectorJob: total number of urls rejected by filters: 0
InjectorJob: total number of urls injected after normalization and filtering: 1
Injector: finished at 2015-01-28 16:27:47, elapsed: 00:00:04


注意,在运行程序前,本机需要先启动hbase。


4、查看hbase中的数据

hbase(main):003:0> scan 'webpage'
ROW                                         COLUMN+CELL                                                                                                                 
 com.163.www:http/                          column=f:fi, timestamp=1422433667377, value=\x00'\x8D\x00                                                                   
 com.163.www:http/                          column=f:ts, timestamp=1422433667377, value=\x00\x00\x01K/\xA7:\x14                                                         
 com.163.www:http/                          column=mk:_injmrk_, timestamp=1422433667377, value=y                                                                        
 com.163.www:http/                          column=mk:dist, timestamp=1422433667377, value=0                                                                            
 com.163.www:http/                          column=mtdt:_csh_, timestamp=1422433667377, value=?\x80\x00\x00                                                             
 com.163.www:http/                          column=s:s, timestamp=1422433667377, value=?\x80\x00\x00                                                                    
1 row(s) in 0.2970 seconds
登录后复制






本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

在Eclipse中如何调整背景颜色设置 在Eclipse中如何调整背景颜色设置 Jan 28, 2024 am 09:08 AM

如何在Eclipse中设置背景颜色?Eclipse是广受开发人员欢迎的集成开发环境(IDE),可用于各种编程语言的开发。它非常强大且灵活,可以通过设置来自定义界面及编辑器的外观。本文将介绍如何在Eclipse中设置背景颜色,并提供具体的代码示例。一、更改编辑器背景颜色打开Eclipse,并进入“Windows”菜单。选择“Preferences”。在左侧导航

如何在Linux系统中执行.sh文件? 如何在Linux系统中执行.sh文件? Mar 14, 2024 pm 06:42 PM

如何在Linux系统中执行.sh文件?在Linux系统中,.sh文件是一种被称为Shell脚本的文件,用于执行一系列的命令。执行.sh文件是非常常见的操作,本文将介绍如何在Linux系统中执行.sh文件,并提供具体的代码示例。方法一:使用绝对路径执行.sh文件要在Linux系统中执行一个.sh文件,可以使用绝对路径来指定该文件的位置。以下是具体的步骤:打开终

PyCharm使用教程:详细指引你运行操作 PyCharm使用教程:详细指引你运行操作 Feb 26, 2024 pm 05:51 PM

PyCharm是一款非常流行的Python集成开发环境(IDE),它提供了丰富的功能和工具,使得Python开发变得更加高效和便捷。本文将为大家介绍PyCharm的基本操作方法,并提供具体的代码示例,帮助读者快速入门并熟练操作该工具。1.下载和安装PyCharm首先,我们需要前往PyCharm官网(https://www.jetbrains.com/pyc

专业指导:如何成功安装Eclipse Lombok插件的专家建议和步骤 专业指导:如何成功安装Eclipse Lombok插件的专家建议和步骤 Jan 28, 2024 am 09:15 AM

专业指导:Eclipse安装Lombok插件的专家建议和步骤,需要具体代码示例摘要:Lombok是一种Java库,能够通过注解的方式简化Java代码的编写,并提供了一些功能强大的工具。本文将向读者介绍如何在Eclipse中安装和配置Lombok插件的步骤,并提供一些具体的代码示例,以便读者能够更好地理解和使用Lombok插件。下载Lombok插件首先,我们需

无法在Windows 7上运行exe文件的原因 无法在Windows 7上运行exe文件的原因 Feb 18, 2024 pm 08:32 PM

为什么win7不能运行exe文件在使用Windows7操作系统时,许多用户可能会遇到一个常见的问题,即无法运行exe文件。exe文件是Windows操作系统中常见的可执行文件,它们通常用于安装和运行各种应用程序。然而,有些用户可能会发现,当他们尝试运行exe文件时,系统并不会响应或给出错误信息。造成这个问题的原因有很多。下面将列举一些常见的原因以及相应的解

揭秘Eclipse代码运行问题的解决方案:助你排查各种运行错误 揭秘Eclipse代码运行问题的解决方案:助你排查各种运行错误 Jan 28, 2024 am 09:22 AM

Eclipse代码运行问题解决方案大揭秘:帮你排除各种代码运行错误,需要具体代码示例导言:Eclipse是一种常用的集成开发环境(IDE),被广泛用于Java开发。尽管Eclipse有着强大的功能和友好的用户界面,但是在编写和调试代码时,难免会遇到各种运行问题。本文将揭示一些常见的Eclipse代码运行问题,并提供解决方案。请注意,为了更好地帮助读者理解,本

用Eclipse更改背景颜色的逐步指南 用Eclipse更改背景颜色的逐步指南 Jan 28, 2024 am 08:28 AM

一步步教你在Eclipse中更改背景颜色,需要具体代码示例Eclipse是一款非常流行的集成开发环境(IDE),经常被用来编写和调试Java项目。在默认情况下,Eclipse的背景颜色是白色,但是有些用户可能希望更改背景颜色以适应自己的喜好或减轻眼部疲劳。本文将一步步教你如何在Eclipse中更改背景颜色,并提供具体的代码示例。步骤1:打开Eclipse首先

Eclipse中自定义快捷键设置的方法 Eclipse中自定义快捷键设置的方法 Jan 28, 2024 am 10:01 AM

如何在Eclipse中自定义快捷键设置?作为一名开发人员,在使用Eclipse进行编码时,熟练掌握快捷键是提高效率的关键之一。Eclipse作为一款强大的集成开发环境,不仅提供了许多默认的快捷键,还允许用户根据自己的偏好进行个性化的定制。本文将介绍如何在Eclipse中自定义快捷键设置,并给出具体的代码示例。打开Eclipse首先,打开Eclipse,并进入

See all articles