Rumah pangkalan data tutorial mysql Hadoop-Nutch学习整理(持续更新)

Hadoop-Nutch学习整理(持续更新)

Jun 07, 2016 pm 04:10 PM
nutch belajar kemas memperbaharui

Nutch学习整理第一部分 单机尝试1、安装部署Nutch的部署和其他Hadoop生态产品的部署流程基本相:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类资料,不再赘述。Nutch的配置文件主要有两个: domain-urlfilter.txt 是用来配置所爬取网站的范

Nutch学习整理 第一部分 单机尝试 1、安装部署 Nutch的部署和其他Hadoop生态产品的部署流程基本相似:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类似资料,不再赘述。 Nutch的配置文件主要有两个:
  • domain-urlfilter.txt 是用来配置所爬取网站的范围,域名和它的子网页的正则表达式,类似于爬取规则。一般配置为: # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
    • nutch-site.xml 这类似于对我要爬取的网站进行一下声明,不声明的话,会导致爬取失败。
      2、单机主要爬取命令 简单命令格式,不赘述。 bin/nutch crawl [-dir d] [-threads n] [-depth i] [-topN]
      3、爬取结果解析 nutch爬取下来的网页信息,保存路径格式如下: \ \

      主要爬取信息保存在路径segments下:

      \\

      \

      \

      喎?http://www.2cto.com/kf/ware/vc/" target="_blank" class="keylink">vcD4KPHVsPgo8bGk+Q3Jhd2xkYsrHy/nT0NDo0qrXpcihtcSzrMGsvdPQxc+iKLTmt8XPwtTYtcRVUkyjrLywz8LU2LXEyNXG2qOs08PAtNKzw+a4/NDCvOyy6cqxvOSjrNK7sOPU2sXAyKHE2sjdveLO9sq9sru74dPDtb2jqTxsaT5MaW5rZGLW0LTmt8W1xMrHy/nT0LOsway907ywxuTDv7j2way907XEwazI67XY1re6zcOqzsSxvqGjPGxpPlNlZ21lbnRztOa3xdelyKG1xNKzw+ajrNPryc/D5sG0vdPJ7rbIIGRlcHRoIM/gudijrGRlcHRoyejOqry41PLU2iBzZWdtZW50c8/Cyfqzyby4uPbS1MqxvOTD/MP7tcTX087EvP680KGjz8LA/b3YzbzKxwogLWRlcHRoPTMKCjxpbWcgc3JjPQ=="http://www.2cto.com/uploadfile/Collfiles/20141127/2014112709151123.jpg" alt="\">
      Segments下的文件夹含义:

      • crawl_generate :names a set of urls to be fetched
      • crawl_fetch : contains the status of fetching each url
      • crawl_parse : contains the outlink urls, used to update the crawldb
      • content : contains the content of each url
      • parse_text : contains the parsed text of each url
      • parse_data : contains outlinks and metadata parsed from each url

        Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate最初生成(待下载URL集合);crawl_fetch(每个下载URL的状态)、content在抓取时生成;crawl_parse(包含用来更新crawldb的外链)、parse_data、parse_text在解析抓取的数据文件时生成。 在进行爬取结果导出的时候,六个参数(-nocontent -nofetch -noparse -noparsedata -noparsetext -nogenerate)分别对应需要导出的内容。 导出命令例: [root@master local]# bin/nutch readseg -dump data_1125/segments/20141125020224 data_dump -nocontent -nofetch -nogenerate -noparse -noparsedata








Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimana untuk membetulkan kemas kini Blizzard Battle.net tersekat pada 45%? Bagaimana untuk membetulkan kemas kini Blizzard Battle.net tersekat pada 45%? Mar 16, 2024 pm 06:52 PM

Bagaimana untuk membetulkan kemas kini Blizzard Battle.net tersekat pada 45%?

Bagaimana untuk memasang Angular pada Ubuntu 24.04 Bagaimana untuk memasang Angular pada Ubuntu 24.04 Mar 23, 2024 pm 12:20 PM

Bagaimana untuk memasang Angular pada Ubuntu 24.04

Bagaimana untuk mengemas kini pemacu kad grafik MSI? Langkah muat turun dan pemasangan pemacu kad grafik MSI Bagaimana untuk mengemas kini pemacu kad grafik MSI? Langkah muat turun dan pemasangan pemacu kad grafik MSI Mar 13, 2024 pm 08:49 PM

Bagaimana untuk mengemas kini pemacu kad grafik MSI? Langkah muat turun dan pemasangan pemacu kad grafik MSI

Windows tidak boleh mengakses peranti, laluan atau fail yang ditentukan Windows tidak boleh mengakses peranti, laluan atau fail yang ditentukan Jun 18, 2024 pm 04:49 PM

Windows tidak boleh mengakses peranti, laluan atau fail yang ditentukan

Windows menjeda kemas kini secara kekal, Windows mematikan kemas kini automatik Windows menjeda kemas kini secara kekal, Windows mematikan kemas kini automatik Jun 18, 2024 pm 07:04 PM

Windows menjeda kemas kini secara kekal, Windows mematikan kemas kini automatik

Mari belajar cara memasukkan nombor akar dalam Word bersama-sama Mari belajar cara memasukkan nombor akar dalam Word bersama-sama Mar 19, 2024 pm 08:52 PM

Mari belajar cara memasukkan nombor akar dalam Word bersama-sama

Outlook tersekat mengemas kini peti masuk; Outlook tersekat mengemas kini peti masuk; Mar 25, 2024 am 09:46 AM

Outlook tersekat mengemas kini peti masuk;

Bagaimana untuk mengemas kini TikTok kepada versi terkini Bagaimana untuk mengemas kini TikTok kepada versi terkini Mar 27, 2024 am 11:06 AM

Bagaimana untuk mengemas kini TikTok kepada versi terkini

See all articles