在Eclipse中运行Nutch2.3
参考http://wiki.apache.org/nutch/RunNutchInEclipse 一、环境准备 1、下载nutch2.3源代码 wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz 或者下载正在开发中的最新版本 svn co https://svn.apache.org/repos/asf/nutch/bra
参考http://wiki.apache.org/nutch/RunNutchInEclipse
一、环境准备
1、下载nutch2.3源代码
wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz
svn co https://svn.apache.org/repos/asf/nutch/branches/2.x
2、选择使用的数据库类型,以hbase为例
在conf/nutch-site.xml中增加以下属性:
<property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property>
3、在ivy/ivy.xml中增加与hbase相关的依赖项,此项本已存在,但被注释掉,将注释去掉即可
<dependency org="org.apache.gora" name="gora-hbase" rev="0.5" conf="*->default” />注意,rev=0.5对应hbase0.94,rev=0.3对应hbase0.90.4
4、在nutch.xml中增加以下3个属性
<property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> <property> <name>http.robots.agents</name> <value>none</value> </property> <property> <name>plugin.folders</name> <value>/Users/liaoliuqing/0_Search/1_Nutch/1_Official/apache-nutch-2.3/build/plugins</value> </property>其中plugin.folders的值为$NUTCH_HOME/build/plugins
5、执行ant eclipse
二、导入project
1、导入project
三、运行程序
1、Run as ----> Run configuration,选择project与主类
2、填写参数
/Users/liaoliuqing/Downloads/seed.txt
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
3、点击run,输出结果如下:
InjectorJob: starting at 2015-01-28 16:27:43
InjectorJob: Injecting urlDir: /Users/liaoliuqing/Downloads/seed.txt
InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.
InjectorJob: total number of urls rejected by filters: 0
InjectorJob: total number of urls injected after normalization and filtering: 1
Injector: finished at 2015-01-28 16:27:47, elapsed: 00:00:04
注意,在运行程序前,本机需要先启动hbase。
4、查看hbase中的数据
hbase(main):003:0> scan 'webpage' ROW COLUMN+CELL com.163.www:http/ column=f:fi, timestamp=1422433667377, value=\x00'\x8D\x00 com.163.www:http/ column=f:ts, timestamp=1422433667377, value=\x00\x00\x01K/\xA7:\x14 com.163.www:http/ column=mk:_injmrk_, timestamp=1422433667377, value=y com.163.www:http/ column=mk:dist, timestamp=1422433667377, value=0 com.163.www:http/ column=mtdt:_csh_, timestamp=1422433667377, value=?\x80\x00\x00 com.163.www:http/ column=s:s, timestamp=1422433667377, value=?\x80\x00\x00 1 row(s) in 0.2970 seconds

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

如何在Eclipse中設定背景顏色? Eclipse是廣受開發人員歡迎的整合開發環境(IDE),可用於各種程式語言的開發。它非常強大且靈活,可以透過設定來自訂介面及編輯器的外觀。本文將介紹如何在Eclipse中設定背景顏色,並提供具體的程式碼範例。一、更改編輯器背景顏色開啟Eclipse,並進入「Windows」選單。選擇“Preferences”。在左側導航

如何在Linux系統中執行.sh檔?在Linux系統中,.sh文件是一種被稱為Shell腳本的文件,用於執行一系列的命令。執行.sh檔案是非常常見的操作,本文將介紹如何在Linux系統中執行.sh文件,並提供具體的程式碼範例。方法一:使用絕對路徑執行.sh文件要在Linux系統中執行一個.sh文件,可以使用絕對路徑來指定該文件的位置。以下是具體的步驟:打開終

專業指導:Eclipse安裝Lombok外掛程式的專家建議和步驟,需要具體程式碼範例摘要:Lombok是一種Java庫,能夠透過註解的方式簡化Java程式碼的編寫,並提供了一些強大的工具。本文將向讀者介紹如何在Eclipse中安裝和設定Lombok插件的步驟,並提供一些具體的程式碼範例,以便讀者能夠更好地理解和使用Lombok插件。下載Lombok插件首先,我們需

PyCharm是一款非常受歡迎的Python整合開發環境(IDE),它提供了豐富的功能和工具,使得Python開發變得更有效率和便利。本文將為大家介紹PyCharm的基本操作方法,並提供具體的程式碼範例,幫助讀者快速入門並熟練操作工具。 1.下載安裝PyCharm首先,我們需要前往PyCharm官網(https://www.jetbrains.com/pyc

Eclipse程式碼運行問題解決方案大揭秘:幫你排除各種程式碼運行錯誤,需要具體程式碼範例導言:Eclipse是一種常用的整合開發環境(IDE),被廣泛用於Java開發。儘管Eclipse有著強大的功能和友善的使用者介面,但在編寫和偵錯程式碼時,難免會遇到各種運行問題。本文將揭示一些常見的Eclipse程式碼運行問題,並提供解決方案。請注意,為了更好地幫助讀者理解,本

一步步教你在Eclipse中更改背景顏色,需要具體程式碼範例Eclipse是一款非常流行的整合開發環境(IDE),經常被用來編寫和調試Java專案。在預設情況下,Eclipse的背景顏色是白色,但有些使用者可能希望更改背景顏色以適應自己的喜好或減輕眼睛疲勞。本文將一步步教你如何在Eclipse中更改背景顏色,並提供具體的程式碼範例。步驟1:打開Eclipse首先

如何在Eclipse中自訂快捷鍵設定?身為開發人員,在使用Eclipse進行編碼時,熟練快捷鍵是提高效率的關鍵之一。 Eclipse作為一個強大的整合開發環境,不僅提供了許多預設的快捷鍵,還允許使用者根據自己的偏好進行個人化的客製化。本文將介紹如何在Eclipse中自訂快捷鍵設置,並給出具體的程式碼範例。打開Eclipse首先,打開Eclipse,並進入

為什麼win7不能執行exe檔在使用Windows7作業系統時,許多使用者可能會遇到一個常見的問題,即無法執行exe檔。 exe檔是Windows作業系統中常見的可執行文件,它們通常用於安裝和執行各種應用程式。然而,有些使用者可能會發現,當他們嘗試執行exe檔時,系統並不會回應或給予錯誤訊息。造成這個問題的原因有很多。以下將列舉一些常見的原因以及對應的解
