在Eclipse中运行Nutch2.3
参考http://wiki.apache.org/nutch/RunNutchInEclipse 一、环境准备 1、下载nutch2.3源代码 wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz 或者下载正在开发中的最新版本 svn co https://svn.apache.org/repos/asf/nutch/bra
参考http://wiki.apache.org/nutch/RunNutchInEclipse
一、环境准备
1、下载nutch2.3源代码
wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz
svn co https://svn.apache.org/repos/asf/nutch/branches/2.x
2、选择使用的数据库类型,以hbase为例
在conf/nutch-site.xml中增加以下属性:
<property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property>
3、在ivy/ivy.xml中增加与hbase相关的依赖项,此项本已存在,但被注释掉,将注释去掉即可
<dependency org="org.apache.gora" name="gora-hbase" rev="0.5" conf="*->default” />注意,rev=0.5对应hbase0.94,rev=0.3对应hbase0.90.4
4、在nutch.xml中增加以下3个属性
<property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> <property> <name>http.robots.agents</name> <value>none</value> </property> <property> <name>plugin.folders</name> <value>/Users/liaoliuqing/0_Search/1_Nutch/1_Official/apache-nutch-2.3/build/plugins</value> </property>其中plugin.folders的值为$NUTCH_HOME/build/plugins
5、执行ant eclipse
二、导入project
1、导入project
三、运行程序
1、Run as ----> Run configuration,选择project与主类
2、填写参数
/Users/liaoliuqing/Downloads/seed.txt
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
3、点击run,输出结果如下:
InjectorJob: starting at 2015-01-28 16:27:43
InjectorJob: Injecting urlDir: /Users/liaoliuqing/Downloads/seed.txt
InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.
InjectorJob: total number of urls rejected by filters: 0
InjectorJob: total number of urls injected after normalization and filtering: 1
Injector: finished at 2015-01-28 16:27:47, elapsed: 00:00:04
注意,在运行程序前,本机需要先启动hbase。
4、查看hbase中的数据
hbase(main):003:0> scan 'webpage' ROW COLUMN+CELL com.163.www:http/ column=f:fi, timestamp=1422433667377, value=\x00'\x8D\x00 com.163.www:http/ column=f:ts, timestamp=1422433667377, value=\x00\x00\x01K/\xA7:\x14 com.163.www:http/ column=mk:_injmrk_, timestamp=1422433667377, value=y com.163.www:http/ column=mk:dist, timestamp=1422433667377, value=0 com.163.www:http/ column=mtdt:_csh_, timestamp=1422433667377, value=?\x80\x00\x00 com.163.www:http/ column=s:s, timestamp=1422433667377, value=?\x80\x00\x00 1 row(s) in 0.2970 seconds

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bagaimana untuk menetapkan warna latar belakang dalam Eclipse? Eclipse ialah persekitaran pembangunan bersepadu (IDE) yang popular di kalangan pembangun dan boleh digunakan untuk pembangunan dalam pelbagai bahasa pengaturcaraan. Ia sangat berkuasa dan fleksibel, dan anda boleh menyesuaikan penampilan antara muka dan editor melalui tetapan. Artikel ini akan memperkenalkan cara untuk menetapkan warna latar belakang dalam Eclipse dan memberikan contoh kod khusus. 1. Tukar warna latar belakang editor Open Eclipse dan masukkan menu "Windows". Pilih "Keutamaan". Navigasi di sebelah kiri

Bagaimana untuk melaksanakan fail .sh dalam sistem Linux? Dalam sistem Linux, fail .sh ialah fail yang dipanggil skrip Shell, yang digunakan untuk melaksanakan satu siri arahan. Melaksanakan fail .sh ialah operasi yang sangat biasa Artikel ini akan memperkenalkan cara melaksanakan fail .sh dalam sistem Linux dan memberikan contoh kod khusus. Kaedah 1: Gunakan laluan mutlak untuk melaksanakan fail .sh Untuk melaksanakan fail .sh dalam sistem Linux, anda boleh menggunakan laluan mutlak untuk menentukan lokasi fail. Berikut ialah langkah khusus: Buka terminal

PyCharm ialah persekitaran pembangunan bersepadu (IDE) Python yang sangat popular. Ia menyediakan pelbagai fungsi dan alatan untuk menjadikan pembangunan Python lebih cekap dan mudah. Artikel ini akan memperkenalkan anda kepada kaedah operasi asas PyCharm dan menyediakan contoh kod khusus untuk membantu pembaca memulakan dengan cepat dan menjadi mahir dalam mengendalikan alat tersebut. 1. Muat turun dan pasang PyCharm Pertama, kita perlu pergi ke laman web rasmi PyCharm (https://www.jetbrains.com/pyc

Panduan profesional: Nasihat pakar dan langkah-langkah untuk memasang pemalam Lombok dalam Eclipse, contoh kod khusus diperlukan Ringkasan: Lombok ialah perpustakaan Java yang memudahkan penulisan kod Java melalui anotasi dan menyediakan beberapa alatan berkuasa. Artikel ini akan memperkenalkan pembaca kepada langkah-langkah cara memasang dan mengkonfigurasi pemalam Lombok dalam Eclipse, dan menyediakan beberapa contoh kod khusus supaya pembaca boleh memahami dan menggunakan pemalam Lombok dengan lebih baik. Muat turun pemalam Lombok dahulu, kami perlukan

Mengapa win7 tidak boleh menjalankan fail exe Apabila menggunakan sistem pengendalian Windows7, ramai pengguna mungkin menghadapi masalah biasa, iaitu, mereka tidak boleh menjalankan fail exe. fail exe ialah fail boleh laku biasa dalam sistem pengendalian Windows Ia biasanya digunakan untuk memasang dan menjalankan pelbagai aplikasi. Walau bagaimanapun, sesetengah pengguna mungkin mendapati bahawa apabila mereka cuba menjalankan fail exe, sistem tidak bertindak balas atau memberikan mesej ralat. Terdapat banyak sebab untuk masalah ini. Berikut adalah beberapa punca biasa dan penyelesaian yang sepadan:

Penyelesaian kepada masalah menjalankan kod Eclipse didedahkan: ia membantu anda menghapuskan pelbagai ralat menjalankan kod dan memerlukan contoh kod khusus Pengenalan: Eclipse ialah persekitaran pembangunan bersepadu (IDE) yang biasa digunakan dan digunakan secara meluas dalam pembangunan Java. Walaupun Eclipse mempunyai fungsi yang berkuasa dan antara muka pengguna yang mesra, ia tidak dapat dielakkan untuk menghadapi pelbagai masalah berjalan semasa menulis dan menyahpepijat kod. Artikel ini akan mendedahkan beberapa masalah lazim kod Eclipse yang dijalankan dan menyediakan penyelesaian. Sila ambil perhatian bahawa untuk membantu pembaca memahami dengan lebih baik, ini

Ajar anda langkah demi langkah cara menukar warna latar belakang dalam Eclipse, contoh kod khusus diperlukan Eclipse ialah persekitaran pembangunan bersepadu (IDE) yang sangat popular yang sering digunakan untuk menulis dan menyahpepijat projek Java. Secara lalai, warna latar belakang Eclipse adalah putih, tetapi sesetengah pengguna mungkin ingin menukar warna latar belakang mengikut keutamaan mereka atau mengurangkan ketegangan mata. Artikel ini akan mengajar anda langkah demi langkah cara menukar warna latar belakang dalam Eclipse dan memberikan contoh kod khusus. Langkah 1: Buka Eclipse Pertama

Bagaimana untuk menyesuaikan tetapan kekunci pintasan dalam Eclipse? Sebagai pembangun, menguasai kekunci pintasan ialah salah satu kunci untuk meningkatkan kecekapan semasa pengekodan dalam Eclipse. Sebagai persekitaran pembangunan bersepadu yang berkuasa, Eclipse bukan sahaja menyediakan banyak kekunci pintasan lalai, tetapi juga membenarkan pengguna untuk menyesuaikannya mengikut keutamaan mereka sendiri. Artikel ini akan memperkenalkan cara untuk menyesuaikan tetapan kekunci pintasan dalam Eclipse dan memberikan contoh kod khusus. Buka Eclipse First, buka Eclipse dan masukkan
