Maison base de données tutoriel mysql Ubuntu12.04+Nutch2.2.1+MySQL 配置笔记

Ubuntu12.04+Nutch2.2.1+MySQL 配置笔记

Jun 07, 2016 pm 03:24 PM
correspondre

日期:2013/10/13 系统 :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 ------------------------------------------------------------------------------------------------------------------------------------------------------------

    

日期:2013/10/13

系统:Ubuntu12.04LTS

JDK:1.7.0_21

Nutch:2.2.1

MySQL:5.5.32

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Pre1:安装配置OracleJDK

Pre2:安装配置MySQL      sudo apt-get install mysql-server,mysql-client

Pre3:安装配置Apache Ant  sudo apt-get install ant

Start:Ubuntu下搭建Nutch2.2.1,并以MySQL作为数据库,UTF-8为默认编码综合配置

     

Step1:MySQL配置

首先编辑 /etc/mysql/my.cnf 文件在[mysqld]下面添加以下内容:

innodb_file_format=barracuda
innodb_file_per_table=true
innodb_large_prefix=true
character-set-server=utf8
collation-server=utf8mb4_unicode_ci
max_allowed_packet=500M
Copier après la connexion

然后创建数据库与数据表:

CREATE DATABASE nutch DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8;
Copier après la connexion
CREATE TABLE `webpage` (
`id` varchar(767) NOT NULL,
`headers` blob,
`text` mediumtext DEFAULT NULL,
`status` int(11) DEFAULT NULL,
`markers` blob,
`parseStatus` blob,
`modifiedTime` bigint(20) DEFAULT NULL,
`score` float DEFAULT NULL,
`typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL,
`batchId` varchar(32) CHARACTER SET latin1 DEFAULT NULL, 
`baseUrl` varchar(767) DEFAULT NULL,
`content` longblob,
`title` varchar(2048) DEFAULT NULL,
`reprUrl` varchar(767) DEFAULT NULL,
`fetchInterval` int(11) DEFAULT NULL,
`prevFetchTime` bigint(20) DEFAULT NULL,
`inlinks` mediumblob,
`prevSignature` blob,
`outlinks` mediumblob,
`fetchTime` bigint(20) DEFAULT NULL,
`retriesSinceFetch` int(11) DEFAULT NULL,
`protocolStatus` blob,
`signature` blob,
`metadata` blob,
PRIMARY KEY (`id`)
) ENGINE=InnoDB
ROW_FORMAT=COMPRESSED
DEFAULT CHARSET=utf8;
Copier après la connexion
注:表中的字段根据nutch的conf文件“gora-sql-mapping”进行设置。同时也可通过自动方式生成数据库和表:配置好“gora-sql-mapping”、“gora.properties”及其它文件后,首次通过运行”bin/nutchinject urls”即可自动生成数据库和表,不过或许在自动生成的时候你会遇到问题,不过没有关系,通过及时查看hadoop.log文件你便会发现很多问题(如下图之一)与MySQL支持的数据类型、数据长度有关,只需要根据日志提示做修改、调试(可借助navicat工具像SQLServer方便操作数据库),然后再重复自动生成过程,直到成功为止。


Step2:Nutch配置

获取Nutch2.2.1,从官网http://www.apache.org/dyn/closer.cgi/nutch/下载,然后解压至本地安装目录,如本地根目录为${APACHE_NUTCH_HOME}

 配置nutch对mysql的支持,修改${APACHE_NUTCH_HOME}/ivy/ivy.xml文件

将以下行的注释取消:

<dependency org="”mysql”" name="”mysql-connector-java”" rev="”5.1.18″" conf="”*-">default”/></dependency>
Copier après la connexion
<span><dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default"></dependency></span>
Copier après la connexion

修改以下行:

<pre class="brush:php;toolbar:false"><span><dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"></dependency></span>
Copier après la connexion
为:

<span><dependencyorg name="gora-core"><span>rev="0.2.1"</span>conf="*->default"/></dependencyorg></span>
Copier après la connexion

Step3:数据库连接配置

编辑${APACHE_NUTCH_HOME}/conf/gora.properties文件,注释掉默认的数据库连接配置,同时添加以下配置内容:

###############################
#  MySQL configure   #
###############################
gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true
gora.sqlstore.jdbc.user=xxxx(MySQL用户名)
gora.sqlstore.jdbc.password=xxxx(MySQL密码)
Copier après la connexion

Step4:数据表映射配置

修改${APACHE_NUTCH_HOME}/conf/gora.properties文件,这里的修改建议按照前面介绍的自动生成数据表的方法进行修改,网上说的要将primarykey的长度从512修改成767,即:

改:  为:

Step5:nutch-site.xml配置

添加以下配置:

<property>
	<name>http.agent.name</name>
	<value>Your Nutch Spider</value>
</property>
<property>
	<name>http.accept.language</name>
	<value>zh-cn, en-us,en-gb,en;q=0.7,*;q=0.3</value>
	<description>*</description>
</property>
<property>
	<name>parser.character.encoding.default</name>
	<value>utf-8</value>
	<description>*</description>
</property>
<property>
	<name>storage.data.store.class</name>
	<value>org.apache.gora.sql.store.SqlStore</value>
	<description>*</description>
</property>
Copier après la connexion
特别需要注意,本人在配置过程中也遇到了:
java.lang.NullPointerException 
at org.apache.avro.util.Utf8.<init>(Utf8.java:37) 
at org.apache.nutch.crawl.GeneratorReducer.setup(GeneratorReducer.java:100) 
at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174) 
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649) 
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) 
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:398) </init>
Copier après la connexion
解决办法就是在上述文件中另外添加一个属性:
<property>

    <name>generate.batch.id</name>

    <value>*</value>

</property>
Copier après la connexion
Step6:使用ant 构建Nutch

(关于ant的命令,这里就不说明了),只需要切换到${APACHE_NUTCH_HOME}下执行ant clean 然后ant 即可。构建完毕后会在${APACHE_NUTCH_HOME}目录下生成runtime 文件夹。

Step:7 网页抓取,种子配置

创建种子文件

cd${APACHE_NUTCH_HOME}/runtime/local 
mkdir -p urls 
echo 'http://www.sina.com.cn' > urls/seed.txt
echo 'http://www.ifeng.com' > urls/seed.txt
Copier après la connexion
执行爬取操作
bin/nutchcrawl urls -depth 5   -topN 10
Copier après la connexion

至此,已经完成了基本的配置。






Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Quelle est la meilleure carte graphique pour i7 3770 ? Quelle est la meilleure carte graphique pour i7 3770 ? Dec 29, 2023 am 09:12 AM

Quelle carte graphique est bonne pour le Core i73770 ? La RTX3070 est une carte graphique très puissante avec d'excellentes performances et une technologie avancée. Que vous jouiez à des jeux, rendiez des graphiques ou effectuiez du machine learning, le RTX3070 peut le gérer facilement. Il utilise l'architecture Ampere de NVIDIA, dispose de 5888 cœurs CUDA et de 8 Go de mémoire GDDR6, ce qui peut offrir une expérience de jeu fluide et des effets graphiques de haute qualité. Le RTX3070 prend également en charge la technologie de lancer de rayons, qui peut présenter des effets de lumière et d'ombre réalistes. Dans l’ensemble, la RTX3070 est une carte graphique puissante et avancée adaptée à ceux qui recherchent des performances et une qualité élevées. RTX3070 est une carte graphique de la série NVIDIA. Utilisation de NVIDIA de 2e génération

i73770 avec rx5600xt (i73770 avec rx5600xt) i73770 avec rx5600xt (i73770 avec rx5600xt) Jan 04, 2024 am 11:26 AM

i73770 avec rx5600xt La carte graphique RX5600XT étant adaptée au processeur R53600, nous avons choisi le i7-3770. Les résultats d'évaluation de la carte graphique RX5600XT sont les suivants : La carte graphique RX5600XT est une excellente carte graphique et a très bien fonctionné après les tests. Il adopte l'architecture RDNA d'AMD, dispose de 6 Go de mémoire vidéo GDDR6 et d'une interface mémoire de 192 bits, prend en charge le bus PCIe4.0 et offre d'excellentes performances de jeu. Dans tous les tests, la carte graphique RX5600XT s'est bien comportée. À haute résolution, il offre une expérience de jeu fluide et maintient des fréquences d'images supérieures à 60 FPS dans la plupart des jeux. Dans les derniers jeux, cela peut aussi fournir de bons

Est-il adapté pour faire correspondre 11600kf avec 3070 ? Est-il adapté pour faire correspondre 11600kf avec 3070 ? Jan 02, 2024 am 11:54 AM

Est-il raisonnable d'utiliser 13600kf avec 3070 ? "Words Play with Flowers" est un jeu de réflexion textuel populaire avec de nouveaux niveaux mis à jour chaque jour. Parmi eux, Nostalgia Cleaning est l'un des niveaux, obligeant les joueurs à trouver 12 endroits dans l'image qui ne correspondent pas à l'époque. Aujourd'hui, je vais partager avec vous la stratégie pour terminer le niveau de nettoyage nostalgique dans "Word Play Flowers", afin que les joueurs qui n'ont pas encore terminé le niveau connaissent les méthodes de fonctionnement spécifiques. S'il est utilisé pour jouer à des jeux, il n'y a aucune différence entre le I513600KF et le I713700KF en termes d'expérience de jeu. Dans ce cas, choisissez simplement le I513600KF pour le processeur. Pour la carte graphique, vous pouvez choisir le RTX3070. Il convient de noter que différents jeux ont des exigences matérielles différentes si le petit mignon joue simplement à DOTALO.

Quelle carte mère convient au Core i5_mx330 de 10e génération ? Quelle carte mère convient au Core i5_mx330 de 10e génération ? Dec 27, 2023 pm 02:17 PM

1. Présentation du châssis MX330 Le MX330 est un châssis à tour moyenne produit par Shenzhen Hangjia Technology Co., Ltd. Il a une apparence simple et élégante et est composé de plaques d'acier de haute qualité. Il a d'excellentes performances de refroidissement et évolutivité, et est très approprié pour une utilisation avec des cartes mères et des processeurs hautes performances 2. Introduction au processeur Core i5 de 10e génération Le processeur Core i5 de 10e génération est un processeur hautes performances lancé par Intel utilisant un 10 nm. processus, il a une fréquence plus élevée et une consommation d’énergie inférieure. Il dispose de puissantes capacités de traitement multicœur et d'une technologie d'accélération intelligente, qui peuvent répondre aux besoins d'utilisation quotidienne et aux besoins de jeu légers de la plupart des utilisateurs. 3. Les performances de dissipation thermique du châssis MX330. La conception du châssis MX330 adopte un style de grille entièrement noire, avec des trous de maillage de grande surface à l'avant et sur le dessus.

Comment choisir les bons accessoires ordinateur carte mère pour améliorer les performances des ordinateurs Xiaomi ? Comment choisir les bons accessoires ordinateur carte mère pour améliorer les performances des ordinateurs Xiaomi ? Dec 28, 2023 am 10:11 AM

Quelle carte mère est la meilleure pour les ordinateurs Xiaomi ? À l'ère actuelle de développement rapide des technologies de l'information, les ordinateurs sont devenus l'un des outils indispensables dans la vie des gens. Lors du choix d’un ordinateur, la carte mère est l’un des composants les plus importants. En tant qu'entreprise technologique bien connue, Xiaomi a également lancé une série de produits informatiques hautes performances. Alors, quel type de carte mère Xiaomi devrait-il choisir ? Cet article détaillera les performances sous plusieurs aspects tels que les performances, la stabilité, l'évolutivité et la réputation de la marque. Les performances sont l'une des considérations les plus importantes lors du choix d'une carte mère. Les ordinateurs haut de gamme de Xiaomi ont les configurations les plus élevées, vous devez donc choisir une carte mère puissante qui leur correspond. On peut envisager de choisir une carte mère prenant en charge la dernière génération de processeurs, comme le processeur Intel Core de 10e génération. Extension de mémoire et de stockage de la carte mère

CPU minimum recommandé adapté à la carte mère 1150 CPU minimum recommandé adapté à la carte mère 1150 Jan 04, 2024 pm 09:22 PM

Lorsque vous choisissez une unité centrale de traitement (CPU) aux spécifications minimales, il est important de trouver un équilibre entre le prix abordable et les besoins de base. Pour les utilisateurs utilisant des cartes mères 1150, le choix d'une configuration CPU minimale appropriée peut répondre aux besoins du travail de bureau quotidien, de la navigation Web et des divertissements légers. Cet article vous recommandera plusieurs processeurs adaptés en termes de performances, de prix, de consommation d'énergie et d'évolutivité. Parmi les sélections de processeurs les moins performants, les performances sont une considération importante. Pour les utilisateurs de bureautique générale et de divertissement léger, un processeur quad-core suffit à répondre aux besoins. Les séries Intel i3 et PentiumG sont toutes deux de bons choix. La série i3 offre des performances plus élevées et un cache plus grand, adapté à la gestion d'applications multitâches et multithread. La série PentiumG est

Choisissez la bonne souris pour votre ordinateur portable Choisissez la bonne souris pour votre ordinateur portable Jan 02, 2024 pm 09:54 PM

Quel type de souris dois-je utiliser avec mon ordinateur portable ? Il est préférable d'utiliser une souris sans fil. 1. La souris sans fil n'a pas de problème d'emmêlement des fils, ce qui la rend plus pratique à utiliser. 2. Équipé d'une souris sans fil, vous pouvez éviter les câbles encombrés et offrir plus de liberté lors de vos déplacements. 3. Il n'est pas nécessaire d'utiliser un câble pour connecter la souris sans fil à l'ordinateur portable, et le câble ne sera pas facilement retiré, ce qui rendra l'expérience d'utilisation meilleure. 4. Dans des situations telles que les voyages d'affaires, les souris sans fil sont plus pratiques à transporter. Lorsque vous utilisez une souris avec un ordinateur portable, vous devez choisir une souris sans fil. Comme une souris sans fil ne nécessite pas de câble, elle est plus pratique à utiliser et peut éviter les enchevêtrements dans le câble. Dans le même temps, la sensibilité et la vitesse de réponse d'une souris sans fil sont meilleures que celles d'une souris filaire, ce qui peut améliorer l'efficacité du travail. Si vous devez l'utiliser pendant une longue période, il est recommandé de choisir un chargeur

Est-il approprié de coupler i56500 avec GTX1070 (Est-il approprié de coupler i56500 avec GTX1070) Est-il approprié de coupler i56500 avec GTX1070 (Est-il approprié de coupler i56500 avec GTX1070) Jan 08, 2024 am 08:25 AM

Est-il approprié de coupler le i56500 avec le GTX1070 ? Si vous voulez être plus sérieux, la réponse est non. Mais sur la base de la situation réelle, cette combinaison ne pose aucun problème. Pourquoi dire non ? Parce que pour les jeux autonomes à grande échelle qui nécessitent plus de configuration maintenant, si vous utilisez i76700k ou i56500 avec gtx1070 et que les autres configurations et paramètres sont les mêmes, la fréquence d'images sera généralement différente et la fréquence d'images de 6700k sera ont tendance à être plus élevés. En fait, cela ressemble plus au principe du baril. La question n'est pas de savoir si vous pouvez vous le permettre ou non. La clé réside dans la forte demande en CPU dans le jeu. Mais compte tenu de la compatibilité du i56500 et du gtx1070. dans la plupart des jeux, la fréquence d'images est déjà assez impressionnante et capable de fournir une excellente expérience de jeu, donc quelque chose comme ça

See all articles