Ubuntu12.04+Nutch2.2.1+MySQL 配置笔记
日期:2013/10/13 系统 :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 ------------------------------------------------------------------------------------------------------------------------------------------------------------
日期:2013/10/13
系统:Ubuntu12.04LTS
JDK:1.7.0_21
Nutch:2.2.1
MySQL:5.5.32
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pre1:安装配置OracleJDK
Pre2:安装配置MySQL sudo apt-get install mysql-server,mysql-client
Pre3:安装配置Apache Ant sudo apt-get install ant
Start:Ubuntu下搭建Nutch2.2.1,并以MySQL作为数据库,UTF-8为默认编码综合配置
Step1:MySQL配置
首先编辑 /etc/mysql/my.cnf 文件在[mysqld]下面添加以下内容:
innodb_file_format=barracuda innodb_file_per_table=true innodb_large_prefix=true character-set-server=utf8 collation-server=utf8mb4_unicode_ci max_allowed_packet=500M
然后创建数据库与数据表:
CREATE DATABASE nutch DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8;
CREATE TABLE `webpage` ( `id` varchar(767) NOT NULL, `headers` blob, `text` mediumtext DEFAULT NULL, `status` int(11) DEFAULT NULL, `markers` blob, `parseStatus` blob, `modifiedTime` bigint(20) DEFAULT NULL, `score` float DEFAULT NULL, `typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL, `batchId` varchar(32) CHARACTER SET latin1 DEFAULT NULL, `baseUrl` varchar(767) DEFAULT NULL, `content` longblob, `title` varchar(2048) DEFAULT NULL, `reprUrl` varchar(767) DEFAULT NULL, `fetchInterval` int(11) DEFAULT NULL, `prevFetchTime` bigint(20) DEFAULT NULL, `inlinks` mediumblob, `prevSignature` blob, `outlinks` mediumblob, `fetchTime` bigint(20) DEFAULT NULL, `retriesSinceFetch` int(11) DEFAULT NULL, `protocolStatus` blob, `signature` blob, `metadata` blob, PRIMARY KEY (`id`) ) ENGINE=InnoDB ROW_FORMAT=COMPRESSED DEFAULT CHARSET=utf8;
Step2:Nutch配置
获取Nutch2.2.1,从官网http://www.apache.org/dyn/closer.cgi/nutch/下载,然后解压至本地安装目录,如本地根目录为${APACHE_NUTCH_HOME}
将以下行的注释取消:
<dependency org="”mysql”" name="”mysql-connector-java”" rev="”5.1.18″" conf="”*-">default”/></dependency>
<span><dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default"></dependency></span>
修改以下行:
<pre class="brush:php;toolbar:false"><span><dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"></dependency></span>
<span><dependencyorg name="gora-core"><span>rev="0.2.1"</span>conf="*->default"/></dependencyorg></span>
Step3:数据库连接配置
编辑${APACHE_NUTCH_HOME}/conf/gora.properties文件,注释掉默认的数据库连接配置,同时添加以下配置内容:
############################### # MySQL configure # ############################### gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true gora.sqlstore.jdbc.user=xxxx(MySQL用户名) gora.sqlstore.jdbc.password=xxxx(MySQL密码)
Step4:数据表映射配置
修改${APACHE_NUTCH_HOME}/conf/gora.properties文件,这里的修改建议按照前面介绍的自动生成数据表的方法进行修改,网上说的要将primarykey的长度从512修改成767,即:
改:
Step5:nutch-site.xml配置
添加以下配置:
<property> <name>http.agent.name</name> <value>Your Nutch Spider</value> </property> <property> <name>http.accept.language</name> <value>zh-cn, en-us,en-gb,en;q=0.7,*;q=0.3</value> <description>*</description> </property> <property> <name>parser.character.encoding.default</name> <value>utf-8</value> <description>*</description> </property> <property> <name>storage.data.store.class</name> <value>org.apache.gora.sql.store.SqlStore</value> <description>*</description> </property>
java.lang.NullPointerException at org.apache.avro.util.Utf8.<init>(Utf8.java:37) at org.apache.nutch.crawl.GeneratorReducer.setup(GeneratorReducer.java:100) at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174) at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:398) </init>
<property> <name>generate.batch.id</name> <value>*</value> </property>
(关于ant的命令,这里就不说明了),只需要切换到${APACHE_NUTCH_HOME}下执行ant clean 然后ant 即可。构建完毕后会在${APACHE_NUTCH_HOME}目录下生成runtime 文件夹。
Step:7 网页抓取,种子配置
创建种子文件
cd${APACHE_NUTCH_HOME}/runtime/local mkdir -p urls echo 'http://www.sina.com.cn' > urls/seed.txt echo 'http://www.ifeng.com' > urls/seed.txt
bin/nutchcrawl urls -depth 5 -topN 10
至此,已经完成了基本的配置。

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Core i73770에 적합한 그래픽 카드는 무엇입니까? RTX3070은 뛰어난 성능과 첨단 기술을 갖춘 매우 강력한 그래픽 카드입니다. 게임을 하든, 그래픽을 렌더링하든, 기계 학습을 수행하든 RTX3070은 이를 쉽게 처리할 수 있습니다. NVIDIA의 Ampere 아키텍처를 사용하고 5888개의 CUDA 코어와 8GB의 GDDR6 메모리를 갖추고 있어 원활한 게임 경험과 고품질 그래픽 효과를 제공할 수 있습니다. RTX3070은 사실적인 빛과 그림자 효과를 표현할 수 있는 레이 트레이싱 기술도 지원합니다. 전체적으로 RTX3070은 고성능과 고품질을 추구하는 사람들에게 적합한 강력하고 진보된 그래픽 카드입니다. RTX3070은 NVIDIA 시리즈 그래픽 카드입니다. 2세대 NVID 사용

rx5600xt가 포함된 i73770 RX5600XT 그래픽 카드가 R53600CPU와 일치하기 때문에 i7-3770을 선택했습니다. RX5600XT 그래픽 카드의 평가 결과는 다음과 같습니다. RX5600XT 그래픽 카드는 우수한 그래픽 카드이며 테스트 결과 매우 좋은 성능을 보였습니다. AMD의 RDNA 아키텍처를 채택하고 6GBGDDR6 비디오 메모리와 192비트 메모리 인터페이스를 갖추고 있으며 PCIe4.0 버스를 지원하고 뛰어난 게임 성능을 제공합니다. 모든 테스트에서 RX5600XT 그래픽 카드는 좋은 성능을 보였습니다. 고해상도에서는 원활한 게임 경험을 제공하고 대부분의 게임에서 60FPS 이상의 프레임 속도를 유지합니다. 최신 게임에서는 좋은 결과를 제공할 수도 있습니다.

3070에 13600kf를 사용하는 것이 합리적일까요? "꽃과 함께 하는 말놀이"는 매일 새로운 레벨이 업데이트되는 인기 텍스트 퍼즐 게임입니다. 그 중 향수 청소(Nostalgia Cleaning)는 플레이어가 그림에서 시대에 맞지 않는 12개의 장소를 찾아야 하는 레벨 중 하나입니다. 오늘은 아직 레벨을 클리어하지 못한 플레이어분들이 구체적인 조작 방법을 알 수 있도록 '워드플레이 꽃'의 향수를 불러일으키는 청소 레벨 클리어 전략을 알려드리겠습니다. 게임을 하는 데 사용한다면 게임 경험 측면에서 I513600KF와 I713700KF 사이에 차이가 없습니다. 이 경우 CPU로 I513600KF를 선택하면 됩니다. 그래픽 카드의 경우 RTX3070을 선택할 수 있습니다. 작은 귀염둥이가 DOTALO를 플레이하는 경우 게임마다 하드웨어 요구 사항이 다릅니다.

1. MX330 섀시 개요 MX330은 Shenzhen Hangjia Technology Co., Ltd.에서 생산한 미드 타워 섀시입니다. 심플하고 우아한 외관을 갖추고 있으며 고품질 철판으로 제작되었습니다. 냉각 성능과 확장성이 뛰어나 고성능 마더보드 및 프로세서와 함께 사용하기에 매우 적합합니다. 2. 코어 10세대 i5 프로세서 소개 코어 10세대 i5 프로세서는 인텔이 10nm 공정을 사용하여 출시한 고성능 프로세서입니다. 프로세스는 더 높은 주파수와 더 낮은 전력 소비를 갖습니다. 강력한 멀티 코어 처리 기능과 지능형 가속 기술을 갖추고 있어 대부분의 사용자의 일상적인 사용 요구 사항과 가벼운 게임 요구 사항을 충족할 수 있습니다. 3. MX330 섀시의 방열 성능 MX330 섀시의 디자인은 전면과 상단에 넓은 면적의 메시가 장착되어 있습니다.

Xiaomi 컴퓨터에 더 적합한 마더보드는 무엇입니까? 오늘날 정보 기술의 급속한 발전 시대에 컴퓨터는 사람들의 삶에 없어서는 안될 도구 중 하나가 되었습니다. 컴퓨터를 선택할 때 마더보드는 가장 중요한 구성 요소 중 하나입니다. 잘 알려진 기술 회사인 Xiaomi는 일련의 고성능 컴퓨터 제품도 출시했습니다. 그렇다면 Xiaomi는 어떤 종류의 마더보드를 선택해야 할까요? 이 기사에서는 성능, 안정성, 확장성 및 브랜드 평판과 같은 여러 측면에서 성능에 대해 자세히 설명합니다. 성능은 마더보드를 선택할 때 가장 중요한 고려 사항 중 하나입니다. 샤오미의 고급형 컴퓨터는 구성이 가장 높기 때문에 그에 맞는 강력한 마더보드를 선택해야 합니다. Intel의 10세대 Core 프로세서와 같은 최신 세대의 프로세서를 지원하는 마더보드를 선택하는 것을 고려해 볼 수 있습니다. 마더보드 메모리 및 스토리지 확장

최하급 중앙 처리 장치(CPU)를 선택할 때는 경제성과 기본 요구 사항의 균형을 맞추는 것이 중요합니다. 1150 마더보드를 사용하는 사용자의 경우 적합한 최소 구성 CPU를 선택하면 일상적인 사무, 웹 검색 및 가벼운 엔터테인먼트의 요구 사항을 충족할 수 있습니다. 이 기사에서는 성능, 가격, 전력 소비 및 확장성 측면에서 귀하에게 적합한 여러 CPU를 권장합니다. 가장 낮은 성능의 CPU 선택 중에서 성능은 중요한 고려 사항입니다. 일반 사무실 및 가벼운 엔터테인먼트 사용자의 경우 쿼드 코어 프로세서만으로도 이러한 요구 사항을 충족하기에 충분합니다. Intel의 i3 시리즈와 PentiumG 시리즈는 모두 좋은 선택입니다. i3 시리즈는 더 높은 성능과 더 큰 캐시를 갖추고 있어 멀티 태스킹 및 멀티 스레드 애플리케이션을 처리하는 데 적합합니다. 펜티엄G 시리즈는

노트북에는 어떤 마우스를 사용해야 하나요? 무선 마우스를 사용하는 것이 가장 좋습니다. 1. 무선마우스는 선이 엉키는 문제가 없어 작업이 더욱 편리합니다. 2. 무선 마우스가 장착되어 복잡한 케이블을 피하고 더 자유롭게 이동할 수 있습니다. 3. 무선 마우스를 노트북에 연결하기 위해 케이블을 사용할 필요가 없으며, 케이블이 쉽게 빠지지 않아 사용 경험이 더 좋아집니다. 4. 출장 등의 상황에서는 무선 마우스가 휴대가 더욱 편리합니다. 노트북으로 마우스를 사용할 때에는 무선마우스를 선택해야 합니다. 무선마우스는 케이블이 필요하지 않기 때문에 사용이 더욱 편리하고 케이블이 엉키는 현상을 방지할 수 있습니다. 동시에 무선 마우스의 감도와 응답 속도는 유선 마우스보다 뛰어나 작업 효율성을 향상시킬 수 있습니다. 오랫동안 사용해야 할 경우 충전을 선택하는 것이 좋습니다

i56500과 GTX1070을 페어링하는 것이 적합합니까? 좀 더 진지하게 생각한다면 대답은 '아니오'입니다. 그러나 실제 상황에 따르면 이 조합에는 문제가 없습니다. 왜 거절합니까? 지금 더 많은 구성이 필요한 대규모 독립형 게임의 경우 gtx1070과 함께 i76700k 또는 i56500을 사용하고 다른 구성 및 설정이 동일하면 일반적으로 프레임 속도가 달라지며 6700k의 프레임 속도는 더 높은 경향이 있습니다. 사실 이것은 배럴 원리에 가깝습니다. 여유가 있느냐 없느냐의 문제는 아니지만, 게임 내에서 CPU에 대한 수요가 얼마나 높은가가 관건입니다. 대부분의 게임에서 프레임 속도는 이미 매우 인상적이며 뛰어난 게임 경험을 제공할 수 있으므로 다음과 같습니다.
