在Eclipse中运行Nutch2.3
参考http://wiki.apache.org/nutch/RunNutchInEclipse 一、环境准备 1、下载nutch2.3源代码 wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz 或者下载正在开发中的最新版本 svn co https://svn.apache.org/repos/asf/nutch/bra
参考http://wiki.apache.org/nutch/RunNutchInEclipse
一、环境准备
1、下载nutch2.3源代码
wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz
svn co https://svn.apache.org/repos/asf/nutch/branches/2.x
2、选择使用的数据库类型,以hbase为例
在conf/nutch-site.xml中增加以下属性:
<property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property>
3、在ivy/ivy.xml中增加与hbase相关的依赖项,此项本已存在,但被注释掉,将注释去掉即可
<dependency org="org.apache.gora" name="gora-hbase" rev="0.5" conf="*->default” />注意,rev=0.5对应hbase0.94,rev=0.3对应hbase0.90.4
4、在nutch.xml中增加以下3个属性
<property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> <property> <name>http.robots.agents</name> <value>none</value> </property> <property> <name>plugin.folders</name> <value>/Users/liaoliuqing/0_Search/1_Nutch/1_Official/apache-nutch-2.3/build/plugins</value> </property>其中plugin.folders的值为$NUTCH_HOME/build/plugins
5、执行ant eclipse
二、导入project
1、导入project
三、运行程序
1、Run as ----> Run configuration,选择project与主类
2、填写参数
/Users/liaoliuqing/Downloads/seed.txt
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
3、点击run,输出结果如下:
InjectorJob: starting at 2015-01-28 16:27:43
InjectorJob: Injecting urlDir: /Users/liaoliuqing/Downloads/seed.txt
InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.
InjectorJob: total number of urls rejected by filters: 0
InjectorJob: total number of urls injected after normalization and filtering: 1
Injector: finished at 2015-01-28 16:27:47, elapsed: 00:00:04
注意,在运行程序前,本机需要先启动hbase。
4、查看hbase中的数据
hbase(main):003:0> scan 'webpage' ROW COLUMN+CELL com.163.www:http/ column=f:fi, timestamp=1422433667377, value=\x00'\x8D\x00 com.163.www:http/ column=f:ts, timestamp=1422433667377, value=\x00\x00\x01K/\xA7:\x14 com.163.www:http/ column=mk:_injmrk_, timestamp=1422433667377, value=y com.163.www:http/ column=mk:dist, timestamp=1422433667377, value=0 com.163.www:http/ column=mtdt:_csh_, timestamp=1422433667377, value=?\x80\x00\x00 com.163.www:http/ column=s:s, timestamp=1422433667377, value=?\x80\x00\x00 1 row(s) in 0.2970 seconds

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Eclipseで背景色を設定するにはどうすればよいですか? Eclipse は開発者の間で人気のある統合開発環境 (IDE) であり、さまざまなプログラミング言語での開発に使用できます。非常に強力かつ柔軟で、設定を通じてインターフェースとエディターの外観をカスタマイズできます。この記事では、Eclipseで背景色を設定する方法と具体的なコード例を紹介します。 1. エディタの背景色を変更する Eclipse を開き、「Windows」メニューに入ります。 「設定」を選択します。左側に移動します

Linuxシステムで.shファイルを実行するにはどうすればよいですか? Linux システムでは、.sh ファイルはシェル スクリプトと呼ばれるファイルであり、一連のコマンドを実行するために使用されます。 .sh ファイルの実行は非常に一般的な操作です。この記事では、Linux システムで .sh ファイルを実行する方法と具体的なコード例を紹介します。方法 1: 絶対パスを使用して .sh ファイルを実行する Linux システムで .sh ファイルを実行するには、絶対パスを使用してファイルの場所を指定できます。具体的な手順は次のとおりです。 ターミナルを開きます。

PyCharm は非常に人気のある Python 統合開発環境 (IDE) であり、Python 開発をより効率的かつ便利にするための豊富な機能とツールを提供します。この記事では、PyCharm の基本的な操作方法を紹介し、読者がすぐに使い始めてツールの操作に習熟できるように、具体的なコード例を示します。 1. PyCharm をダウンロードしてインストールします。 まず、PyCharm 公式 Web サイト (https://www.jetbrains.com/pyc) にアクセスする必要があります。

専門的なガイダンス: Lombok プラグインを Eclipse にインストールするための専門家のアドバイスと手順。特定のコード例が必要です。 概要: Lombok は、アノテーションを通じて Java コードの作成を簡素化し、いくつかの強力なツールを提供する Java ライブラリです。この記事では、Eclipse で Lombok プラグインをインストールして構成する方法の手順を読者に紹介し、読者が Lombok プラグインをよりよく理解して使用できるように、いくつかの具体的なコード例を示します。まず Lombok プラグインをダウンロードします。

Eclipse コード実行の問題の解決策が明らかになります: これは、さまざまなコード実行エラーを排除するのに役立ち、特定のコード サンプルが必要です はじめに: Eclipse は、一般的に使用される統合開発環境 (IDE) であり、Java 開発で広く使用されています。 Eclipse は強力な機能とフレンドリーなユーザー インターフェイスを備えていますが、コードを作成およびデバッグする際には、実行中にさまざまな問題が発生することは避けられません。この記事では、Eclipse コードの実行に関する一般的な問題をいくつか明らかにし、解決策を提供します。読者の理解を助けるために、これは

Eclipse で背景色を変更する方法を段階的に説明します。特定のコード例が必要です。 Eclipse は、Java プロジェクトの作成とデバッグによく使用される、非常に人気のある統合開発環境 (IDE) です。 Eclipse のデフォルトの背景色は白ですが、ユーザーによっては好みに合わせたり、目の疲れを軽減したりするために背景色を変更したい場合があります。この記事では、Eclipse で背景色を変更する方法を段階的に説明し、具体的なコード例を示します。ステップ 1: まず Eclipse を開く

Eclipse でショートカット キーの設定をカスタマイズするにはどうすればよいですか?開発者にとって、ショートカット キーをマスターすることは、Eclipse でコーディングする際の効率を向上させるための鍵の 1 つです。強力な統合開発環境として、Eclipse は多くのデフォルトのショートカット キーを提供するだけでなく、ユーザーが独自の好みに応じてショートカット キーをカスタマイズすることもできます。この記事では、Eclipseでショートカットキーの設定をカスタマイズする方法と具体的なコード例を紹介します。 Eclipseを開く まず、Eclipseを開いて次のように入力します。

設定手順: 1. Eclipse を開き、メニュー バーの [ウィンドウ] -> [設定] に入ります; 2. [一般] -> [外観] -> [色とフォント] を選択します; 3. [基本] -> [テキスト フォント] を展開し、右側の [編集] ボタンをクリックします; 4.フォント、フォント、サイズ、その他の属性については、12、14、16 など、個人のニーズに応じて適切なフォント サイズを選択します。 5. [適用] ボタンをクリックして、変更を適用します。
