데이터 베이스 MySQL 튜토리얼 Ubuntu12.04+Nutch2.2.1+MySQL 配置笔记

Ubuntu12.04+Nutch2.2.1+MySQL 配置笔记

Jun 07, 2016 pm 03:24 PM
성냥

日期:2013/10/13 系统 :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 ------------------------------------------------------------------------------------------------------------------------------------------------------------

    

日期:2013/10/13

系统:Ubuntu12.04LTS

JDK:1.7.0_21

Nutch:2.2.1

MySQL:5.5.32

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Pre1:安装配置OracleJDK

Pre2:安装配置MySQL      sudo apt-get install mysql-server,mysql-client

Pre3:安装配置Apache Ant  sudo apt-get install ant

Start:Ubuntu下搭建Nutch2.2.1,并以MySQL作为数据库,UTF-8为默认编码综合配置

     

Step1:MySQL配置

首先编辑 /etc/mysql/my.cnf 文件在[mysqld]下面添加以下内容:

innodb_file_format=barracuda
innodb_file_per_table=true
innodb_large_prefix=true
character-set-server=utf8
collation-server=utf8mb4_unicode_ci
max_allowed_packet=500M
로그인 후 복사

然后创建数据库与数据表:

CREATE DATABASE nutch DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8;
로그인 후 복사
CREATE TABLE `webpage` (
`id` varchar(767) NOT NULL,
`headers` blob,
`text` mediumtext DEFAULT NULL,
`status` int(11) DEFAULT NULL,
`markers` blob,
`parseStatus` blob,
`modifiedTime` bigint(20) DEFAULT NULL,
`score` float DEFAULT NULL,
`typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL,
`batchId` varchar(32) CHARACTER SET latin1 DEFAULT NULL, 
`baseUrl` varchar(767) DEFAULT NULL,
`content` longblob,
`title` varchar(2048) DEFAULT NULL,
`reprUrl` varchar(767) DEFAULT NULL,
`fetchInterval` int(11) DEFAULT NULL,
`prevFetchTime` bigint(20) DEFAULT NULL,
`inlinks` mediumblob,
`prevSignature` blob,
`outlinks` mediumblob,
`fetchTime` bigint(20) DEFAULT NULL,
`retriesSinceFetch` int(11) DEFAULT NULL,
`protocolStatus` blob,
`signature` blob,
`metadata` blob,
PRIMARY KEY (`id`)
) ENGINE=InnoDB
ROW_FORMAT=COMPRESSED
DEFAULT CHARSET=utf8;
로그인 후 복사
注:表中的字段根据nutch的conf文件“gora-sql-mapping”进行设置。同时也可通过自动方式生成数据库和表:配置好“gora-sql-mapping”、“gora.properties”及其它文件后,首次通过运行”bin/nutchinject urls”即可自动生成数据库和表,不过或许在自动生成的时候你会遇到问题,不过没有关系,通过及时查看hadoop.log文件你便会发现很多问题(如下图之一)与MySQL支持的数据类型、数据长度有关,只需要根据日志提示做修改、调试(可借助navicat工具像SQLServer方便操作数据库),然后再重复自动生成过程,直到成功为止。


Step2:Nutch配置

获取Nutch2.2.1,从官网http://www.apache.org/dyn/closer.cgi/nutch/下载,然后解压至本地安装目录,如本地根目录为${APACHE_NUTCH_HOME}

 配置nutch对mysql的支持,修改${APACHE_NUTCH_HOME}/ivy/ivy.xml文件

将以下行的注释取消:

<dependency org="”mysql”" name="”mysql-connector-java”" rev="”5.1.18″" conf="”*-">default”/></dependency>
로그인 후 복사
<span><dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default"></dependency></span>
로그인 후 복사

修改以下行:

<pre class="brush:php;toolbar:false"><span><dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"></dependency></span>
로그인 후 복사
为:

<span><dependencyorg name="gora-core"><span>rev="0.2.1"</span>conf="*->default"/></dependencyorg></span>
로그인 후 복사

Step3:数据库连接配置

编辑${APACHE_NUTCH_HOME}/conf/gora.properties文件,注释掉默认的数据库连接配置,同时添加以下配置内容:

###############################
#  MySQL configure   #
###############################
gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true
gora.sqlstore.jdbc.user=xxxx(MySQL用户名)
gora.sqlstore.jdbc.password=xxxx(MySQL密码)
로그인 후 복사

Step4:数据表映射配置

修改${APACHE_NUTCH_HOME}/conf/gora.properties文件,这里的修改建议按照前面介绍的自动生成数据表的方法进行修改,网上说的要将primarykey的长度从512修改成767,即:

改:  为:

Step5:nutch-site.xml配置

添加以下配置:

<property>
	<name>http.agent.name</name>
	<value>Your Nutch Spider</value>
</property>
<property>
	<name>http.accept.language</name>
	<value>zh-cn, en-us,en-gb,en;q=0.7,*;q=0.3</value>
	<description>*</description>
</property>
<property>
	<name>parser.character.encoding.default</name>
	<value>utf-8</value>
	<description>*</description>
</property>
<property>
	<name>storage.data.store.class</name>
	<value>org.apache.gora.sql.store.SqlStore</value>
	<description>*</description>
</property>
로그인 후 복사
特别需要注意,本人在配置过程中也遇到了:
java.lang.NullPointerException 
at org.apache.avro.util.Utf8.<init>(Utf8.java:37) 
at org.apache.nutch.crawl.GeneratorReducer.setup(GeneratorReducer.java:100) 
at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174) 
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649) 
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) 
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:398) </init>
로그인 후 복사
解决办法就是在上述文件中另外添加一个属性:
<property>

    <name>generate.batch.id</name>

    <value>*</value>

</property>
로그인 후 복사
Step6:使用ant 构建Nutch

(关于ant的命令,这里就不说明了),只需要切换到${APACHE_NUTCH_HOME}下执行ant clean 然后ant 即可。构建完毕后会在${APACHE_NUTCH_HOME}目录下生成runtime 文件夹。

Step:7 网页抓取,种子配置

创建种子文件

cd${APACHE_NUTCH_HOME}/runtime/local 
mkdir -p urls 
echo 'http://www.sina.com.cn' > urls/seed.txt
echo 'http://www.ifeng.com' > urls/seed.txt
로그인 후 복사
执行爬取操作
bin/nutchcrawl urls -depth 5   -topN 10
로그인 후 복사

至此,已经完成了基本的配置。






본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

i7 3770에 가장 적합한 그래픽 카드는 무엇입니까? i7 3770에 가장 적합한 그래픽 카드는 무엇입니까? Dec 29, 2023 am 09:12 AM

Core i73770에 적합한 그래픽 카드는 무엇입니까? RTX3070은 뛰어난 성능과 첨단 기술을 갖춘 매우 강력한 그래픽 카드입니다. 게임을 하든, 그래픽을 렌더링하든, 기계 학습을 수행하든 RTX3070은 이를 쉽게 처리할 수 있습니다. NVIDIA의 Ampere 아키텍처를 사용하고 5888개의 CUDA 코어와 8GB의 GDDR6 메모리를 갖추고 있어 원활한 게임 경험과 고품질 그래픽 효과를 제공할 수 있습니다. RTX3070은 사실적인 빛과 그림자 효과를 표현할 수 있는 레이 트레이싱 기술도 지원합니다. 전체적으로 RTX3070은 고성능과 고품질을 추구하는 사람들에게 적합한 강력하고 진보된 그래픽 카드입니다. RTX3070은 NVIDIA 시리즈 그래픽 카드입니다. 2세대 NVID 사용

rx5600xt가 포함된 i73770(rx5600xt가 포함된 i73770) rx5600xt가 포함된 i73770(rx5600xt가 포함된 i73770) Jan 04, 2024 am 11:26 AM

rx5600xt가 포함된 i73770 RX5600XT 그래픽 카드가 R53600CPU와 일치하기 때문에 i7-3770을 선택했습니다. RX5600XT 그래픽 카드의 평가 결과는 다음과 같습니다. RX5600XT 그래픽 카드는 우수한 그래픽 카드이며 테스트 결과 매우 좋은 성능을 보였습니다. AMD의 RDNA 아키텍처를 채택하고 6GBGDDR6 비디오 메모리와 192비트 메모리 인터페이스를 갖추고 있으며 PCIe4.0 버스를 지원하고 뛰어난 게임 성능을 제공합니다. 모든 테스트에서 RX5600XT 그래픽 카드는 좋은 성능을 보였습니다. 고해상도에서는 원활한 게임 경험을 제공하고 대부분의 게임에서 60FPS 이상의 프레임 속도를 유지합니다. 최신 게임에서는 좋은 결과를 제공할 수도 있습니다.

3070 매칭에 11600kf가 적합할까요? 3070 매칭에 11600kf가 적합할까요? Jan 02, 2024 am 11:54 AM

3070에 13600kf를 사용하는 것이 합리적일까요? "꽃과 함께 하는 말놀이"는 매일 새로운 레벨이 업데이트되는 인기 텍스트 퍼즐 게임입니다. 그 중 향수 청소(Nostalgia Cleaning)는 플레이어가 그림에서 시대에 맞지 않는 12개의 장소를 찾아야 하는 레벨 중 하나입니다. 오늘은 아직 레벨을 클리어하지 못한 플레이어분들이 구체적인 조작 방법을 알 수 있도록 '워드플레이 꽃'의 향수를 불러일으키는 청소 레벨 클리어 전략을 알려드리겠습니다. 게임을 하는 데 사용한다면 게임 경험 측면에서 I513600KF와 I713700KF 사이에 차이가 없습니다. 이 경우 CPU로 I513600KF를 선택하면 됩니다. 그래픽 카드의 경우 RTX3070을 선택할 수 있습니다. 작은 귀염둥이가 DOTALO를 플레이하는 경우 게임마다 하드웨어 요구 사항이 다릅니다.

Core 10세대 i5_mx330에 적합한 마더보드는 무엇입니까? Core 10세대 i5_mx330에 적합한 마더보드는 무엇입니까? Dec 27, 2023 pm 02:17 PM

1. MX330 섀시 개요 MX330은 Shenzhen Hangjia Technology Co., Ltd.에서 생산한 미드 타워 섀시입니다. 심플하고 우아한 외관을 갖추고 있으며 고품질 철판으로 제작되었습니다. 냉각 성능과 확장성이 뛰어나 고성능 마더보드 및 프로세서와 함께 사용하기에 매우 적합합니다. 2. 코어 10세대 i5 프로세서 소개 코어 10세대 i5 프로세서는 인텔이 10nm 공정을 사용하여 출시한 고성능 프로세서입니다. 프로세스는 더 높은 주파수와 더 낮은 전력 소비를 갖습니다. 강력한 멀티 코어 처리 기능과 지능형 가속 기술을 갖추고 있어 대부분의 사용자의 일상적인 사용 요구 사항과 가벼운 게임 요구 사항을 충족할 수 있습니다. 3. MX330 섀시의 방열 성능 MX330 섀시의 디자인은 전면과 상단에 넓은 면적의 메시가 장착되어 있습니다.

Xiaomi 컴퓨터의 성능을 향상시키기 위해 올바른 마더보드 컴퓨터 액세서리를 선택하는 방법은 무엇입니까? Xiaomi 컴퓨터의 성능을 향상시키기 위해 올바른 마더보드 컴퓨터 액세서리를 선택하는 방법은 무엇입니까? Dec 28, 2023 am 10:11 AM

Xiaomi 컴퓨터에 더 적합한 마더보드는 무엇입니까? 오늘날 정보 기술의 급속한 발전 시대에 컴퓨터는 사람들의 삶에 없어서는 안될 도구 중 하나가 되었습니다. 컴퓨터를 선택할 때 마더보드는 가장 중요한 구성 요소 중 하나입니다. 잘 알려진 기술 회사인 Xiaomi는 일련의 고성능 컴퓨터 제품도 출시했습니다. 그렇다면 Xiaomi는 어떤 종류의 마더보드를 선택해야 할까요? 이 기사에서는 성능, 안정성, 확장성 및 브랜드 평판과 같은 여러 측면에서 성능에 대해 자세히 설명합니다. 성능은 마더보드를 선택할 때 가장 중요한 고려 사항 중 하나입니다. 샤오미의 고급형 컴퓨터는 구성이 가장 높기 때문에 그에 맞는 강력한 마더보드를 선택해야 합니다. Intel의 10세대 Core 프로세서와 같은 최신 세대의 프로세서를 지원하는 마더보드를 선택하는 것을 고려해 볼 수 있습니다. 마더보드 메모리 및 스토리지 확장

1150 마더보드에 적합한 권장 최소 CPU 1150 마더보드에 적합한 권장 최소 CPU Jan 04, 2024 pm 09:22 PM

최하급 중앙 처리 장치(CPU)를 선택할 때는 경제성과 기본 요구 사항의 균형을 맞추는 것이 중요합니다. 1150 마더보드를 사용하는 사용자의 경우 적합한 최소 구성 CPU를 선택하면 일상적인 사무, 웹 검색 및 가벼운 엔터테인먼트의 요구 사항을 충족할 수 있습니다. 이 기사에서는 성능, 가격, 전력 소비 및 확장성 측면에서 귀하에게 적합한 여러 CPU를 권장합니다. 가장 낮은 성능의 CPU 선택 중에서 성능은 중요한 고려 사항입니다. 일반 사무실 및 가벼운 엔터테인먼트 사용자의 경우 쿼드 코어 프로세서만으로도 이러한 요구 사항을 충족하기에 충분합니다. Intel의 i3 시리즈와 PentiumG 시리즈는 모두 좋은 선택입니다. i3 시리즈는 더 높은 성능과 더 큰 캐시를 갖추고 있어 멀티 태스킹 및 멀티 스레드 애플리케이션을 처리하는 데 적합합니다. 펜티엄G 시리즈는

노트북에 적합한 마우스를 선택하세요 노트북에 적합한 마우스를 선택하세요 Jan 02, 2024 pm 09:54 PM

노트북에는 어떤 마우스를 사용해야 하나요? 무선 마우스를 사용하는 것이 가장 좋습니다. 1. 무선마우스는 선이 엉키는 문제가 없어 작업이 더욱 편리합니다. 2. 무선 마우스가 장착되어 복잡한 케이블을 피하고 더 자유롭게 이동할 수 있습니다. 3. 무선 마우스를 노트북에 연결하기 위해 케이블을 사용할 필요가 없으며, 케이블이 쉽게 빠지지 않아 사용 경험이 더 좋아집니다. 4. 출장 등의 상황에서는 무선 마우스가 휴대가 더욱 편리합니다. 노트북으로 마우스를 사용할 때에는 무선마우스를 선택해야 합니다. 무선마우스는 케이블이 필요하지 않기 때문에 사용이 더욱 편리하고 케이블이 엉키는 현상을 방지할 수 있습니다. 동시에 무선 마우스의 감도와 응답 속도는 유선 마우스보다 뛰어나 작업 효율성을 향상시킬 수 있습니다. 오랫동안 사용해야 할 경우 충전을 선택하는 것이 좋습니다

i56500과 GTX1070을 페어링하는 것이 적합한가요?(i56500과 GTX1070을 페어링하는 것이 적합한가요?) i56500과 GTX1070을 페어링하는 것이 적합한가요?(i56500과 GTX1070을 페어링하는 것이 적합한가요?) Jan 08, 2024 am 08:25 AM

i56500과 GTX1070을 페어링하는 것이 적합합니까? 좀 더 진지하게 생각한다면 대답은 '아니오'입니다. 그러나 실제 상황에 따르면 이 조합에는 문제가 없습니다. 왜 거절합니까? 지금 더 많은 구성이 필요한 대규모 독립형 게임의 경우 gtx1070과 함께 i76700k 또는 i56500을 사용하고 다른 구성 및 설정이 동일하면 일반적으로 프레임 속도가 달라지며 6700k의 프레임 속도는 더 높은 경향이 있습니다. 사실 이것은 배럴 원리에 가깝습니다. 여유가 있느냐 없느냐의 문제는 아니지만, 게임 내에서 CPU에 대한 수요가 얼마나 높은가가 관건입니다. 대부분의 게임에서 프레임 속도는 이미 매우 인상적이며 뛰어난 게임 경험을 제공할 수 있으므로 다음과 같습니다.

See all articles