在Eclipse中运行Nutch2.3
参考http://wiki.apache.org/nutch/RunNutchInEclipse 一、环境准备 1、下载nutch2.3源代码 wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz 或者下载正在开发中的最新版本 svn co https://svn.apache.org/repos/asf/nutch/bra
参考http://wiki.apache.org/nutch/RunNutchInEclipse
一、环境准备
1、下载nutch2.3源代码
wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz
svn co https://svn.apache.org/repos/asf/nutch/branches/2.x
2、选择使用的数据库类型,以hbase为例
在conf/nutch-site.xml中增加以下属性:
<property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property>
3、在ivy/ivy.xml中增加与hbase相关的依赖项,此项本已存在,但被注释掉,将注释去掉即可
<dependency org="org.apache.gora" name="gora-hbase" rev="0.5" conf="*->default” />注意,rev=0.5对应hbase0.94,rev=0.3对应hbase0.90.4
4、在nutch.xml中增加以下3个属性
<property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> <property> <name>http.robots.agents</name> <value>none</value> </property> <property> <name>plugin.folders</name> <value>/Users/liaoliuqing/0_Search/1_Nutch/1_Official/apache-nutch-2.3/build/plugins</value> </property>其中plugin.folders的值为$NUTCH_HOME/build/plugins
5、执行ant eclipse
二、导入project
1、导入project
三、运行程序
1、Run as ----> Run configuration,选择project与主类
2、填写参数
/Users/liaoliuqing/Downloads/seed.txt
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
3、点击run,输出结果如下:
InjectorJob: starting at 2015-01-28 16:27:43
InjectorJob: Injecting urlDir: /Users/liaoliuqing/Downloads/seed.txt
InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.
InjectorJob: total number of urls rejected by filters: 0
InjectorJob: total number of urls injected after normalization and filtering: 1
Injector: finished at 2015-01-28 16:27:47, elapsed: 00:00:04
注意,在运行程序前,本机需要先启动hbase。
4、查看hbase中的数据
hbase(main):003:0> scan 'webpage' ROW COLUMN+CELL com.163.www:http/ column=f:fi, timestamp=1422433667377, value=\x00'\x8D\x00 com.163.www:http/ column=f:ts, timestamp=1422433667377, value=\x00\x00\x01K/\xA7:\x14 com.163.www:http/ column=mk:_injmrk_, timestamp=1422433667377, value=y com.163.www:http/ column=mk:dist, timestamp=1422433667377, value=0 com.163.www:http/ column=mtdt:_csh_, timestamp=1422433667377, value=?\x80\x00\x00 com.163.www:http/ column=s:s, timestamp=1422433667377, value=?\x80\x00\x00 1 row(s) in 0.2970 seconds

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Comment définir la couleur d’arrière-plan dans Eclipse ? Eclipse est un environnement de développement intégré (IDE) populaire parmi les développeurs et peut être utilisé pour le développement dans une variété de langages de programmation. Il est très puissant et flexible, et vous pouvez personnaliser l'apparence de l'interface et de l'éditeur via les paramètres. Cet article explique comment définir la couleur d'arrière-plan dans Eclipse et fournit des exemples de code spécifiques. 1. Changez la couleur d'arrière-plan de l'éditeur. Ouvrez Eclipse et entrez dans le menu "Windows". Sélectionnez "Préférences". Naviguez à gauche

Comment exécuter le fichier .sh sur le système Linux ? Dans les systèmes Linux, un fichier .sh est un fichier appelé script Shell, utilisé pour exécuter une série de commandes. L'exécution de fichiers .sh est une opération très courante. Cet article explique comment exécuter des fichiers .sh dans les systèmes Linux et fournit des exemples de code spécifiques. Méthode 1 : utiliser un chemin absolu pour exécuter un fichier .sh Pour exécuter un fichier .sh dans un système Linux, vous pouvez utiliser un chemin absolu pour spécifier l'emplacement du fichier. Voici les étapes spécifiques : Ouvrez le terminal

PyCharm est un environnement de développement intégré (IDE) Python très populaire. Il fournit une multitude de fonctions et d'outils pour rendre le développement Python plus efficace et plus pratique. Cet article vous présentera les méthodes de fonctionnement de base de PyCharm et fournira des exemples de code spécifiques pour aider les lecteurs à démarrer rapidement et à maîtriser l'utilisation de l'outil. 1. Téléchargez et installez PyCharm Tout d'abord, nous devons nous rendre sur le site officiel de PyCharm (https://www.jetbrains.com/pyc

Conseils professionnels : conseils d'experts et étapes pour installer le plug-in Lombok dans Eclipse, des exemples de code spécifiques sont requis. Résumé : Lombok est une bibliothèque Java qui simplifie l'écriture de code Java grâce à des annotations et fournit des outils puissants. Cet article présentera aux lecteurs les étapes d'installation et de configuration du plug-in Lombok dans Eclipse et fournira des exemples de code spécifiques afin que les lecteurs puissent mieux comprendre et utiliser le plug-in Lombok. Téléchargez d'abord le plug-in Lombok, nous avons besoin

La solution aux problèmes d'exécution du code Eclipse est révélée : elle vous aide à éliminer diverses erreurs d'exécution du code et nécessite des exemples de code spécifiques. Introduction : Eclipse est un environnement de développement intégré (IDE) couramment utilisé et est largement utilisé dans le développement Java. Bien qu'Eclipse dispose de fonctions puissantes et d'une interface utilisateur conviviale, il est inévitable de rencontrer divers problèmes d'exécution lors de l'écriture et du débogage du code. Cet article révélera certains problèmes courants d’exécution du code Eclipse et proposera des solutions. Veuillez noter que afin de mieux aider les lecteurs à comprendre, ce

Comment personnaliser les paramètres des touches de raccourci dans Eclipse ? En tant que développeur, la maîtrise des touches de raccourci est l'une des clés pour améliorer l'efficacité du codage dans Eclipse. En tant qu'environnement de développement intégré puissant, Eclipse fournit non seulement de nombreuses touches de raccourci par défaut, mais permet également aux utilisateurs de les personnaliser selon leurs propres préférences. Cet article explique comment personnaliser les paramètres des touches de raccourci dans Eclipse et donne des exemples de code spécifiques. Ouvrez Eclipse Tout d'abord, ouvrez Eclipse et entrez

Apprenez étape par étape comment changer la couleur d'arrière-plan dans Eclipse, des exemples de code spécifiques sont requis. Eclipse est un environnement de développement intégré (IDE) très populaire qui est souvent utilisé pour écrire et déboguer des projets Java. Par défaut, la couleur d'arrière-plan d'Eclipse est blanche, mais certains utilisateurs peuvent souhaiter modifier la couleur d'arrière-plan selon leurs préférences ou pour réduire la fatigue oculaire. Cet article vous apprendra étape par étape comment modifier la couleur d'arrière-plan dans Eclipse et fournira des exemples de code spécifiques. Étape 1 : ouvrez d’abord Eclipse

Pourquoi Win7 ne peut-il pas exécuter les fichiers exe ? Lors de l'utilisation du système d'exploitation Windows7, de nombreux utilisateurs peuvent rencontrer un problème courant, c'est-à-dire qu'ils ne peuvent pas exécuter les fichiers exe. Les fichiers exe sont des fichiers exécutables courants dans les systèmes d'exploitation Windows. Ils sont généralement utilisés pour installer et exécuter diverses applications. Cependant, certains utilisateurs peuvent constater que lorsqu'ils tentent d'exécuter le fichier exe, le système ne répond pas ou affiche un message d'erreur. Il y a plusieurs raisons à ce problème. Vous trouverez ci-dessous quelques causes courantes et solutions correspondantes :
