Ubuntu12.04+Nutch2.2.1+MySQL 配置笔记
日期:2013/10/13 系统 :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 ------------------------------------------------------------------------------------------------------------------------------------------------------------
日期:2013/10/13
系统:Ubuntu12.04LTS
JDK:1.7.0_21
Nutch:2.2.1
MySQL:5.5.32
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pre1:安装配置OracleJDK
Pre2:安装配置MySQL sudo apt-get install mysql-server,mysql-client
Pre3:安装配置Apache Ant sudo apt-get install ant
Start:Ubuntu下搭建Nutch2.2.1,并以MySQL作为数据库,UTF-8为默认编码综合配置
Step1:MySQL配置
首先编辑 /etc/mysql/my.cnf 文件在[mysqld]下面添加以下内容:
innodb_file_format=barracuda innodb_file_per_table=true innodb_large_prefix=true character-set-server=utf8 collation-server=utf8mb4_unicode_ci max_allowed_packet=500M
然后创建数据库与数据表:
CREATE DATABASE nutch DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8;
CREATE TABLE `webpage` ( `id` varchar(767) NOT NULL, `headers` blob, `text` mediumtext DEFAULT NULL, `status` int(11) DEFAULT NULL, `markers` blob, `parseStatus` blob, `modifiedTime` bigint(20) DEFAULT NULL, `score` float DEFAULT NULL, `typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL, `batchId` varchar(32) CHARACTER SET latin1 DEFAULT NULL, `baseUrl` varchar(767) DEFAULT NULL, `content` longblob, `title` varchar(2048) DEFAULT NULL, `reprUrl` varchar(767) DEFAULT NULL, `fetchInterval` int(11) DEFAULT NULL, `prevFetchTime` bigint(20) DEFAULT NULL, `inlinks` mediumblob, `prevSignature` blob, `outlinks` mediumblob, `fetchTime` bigint(20) DEFAULT NULL, `retriesSinceFetch` int(11) DEFAULT NULL, `protocolStatus` blob, `signature` blob, `metadata` blob, PRIMARY KEY (`id`) ) ENGINE=InnoDB ROW_FORMAT=COMPRESSED DEFAULT CHARSET=utf8;
Step2:Nutch配置
获取Nutch2.2.1,从官网http://www.apache.org/dyn/closer.cgi/nutch/下载,然后解压至本地安装目录,如本地根目录为${APACHE_NUTCH_HOME}
将以下行的注释取消:
<dependency org="”mysql”" name="”mysql-connector-java”" rev="”5.1.18″" conf="”*-">default”/></dependency>
<span><dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default"></dependency></span>
修改以下行:
<pre class="brush:php;toolbar:false"><span><dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"></dependency></span>
<span><dependencyorg name="gora-core"><span>rev="0.2.1"</span>conf="*->default"/></dependencyorg></span>
Step3:数据库连接配置
编辑${APACHE_NUTCH_HOME}/conf/gora.properties文件,注释掉默认的数据库连接配置,同时添加以下配置内容:
############################### # MySQL configure # ############################### gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true gora.sqlstore.jdbc.user=xxxx(MySQL用户名) gora.sqlstore.jdbc.password=xxxx(MySQL密码)
Step4:数据表映射配置
修改${APACHE_NUTCH_HOME}/conf/gora.properties文件,这里的修改建议按照前面介绍的自动生成数据表的方法进行修改,网上说的要将primarykey的长度从512修改成767,即:
改:
Step5:nutch-site.xml配置
添加以下配置:
<property> <name>http.agent.name</name> <value>Your Nutch Spider</value> </property> <property> <name>http.accept.language</name> <value>zh-cn, en-us,en-gb,en;q=0.7,*;q=0.3</value> <description>*</description> </property> <property> <name>parser.character.encoding.default</name> <value>utf-8</value> <description>*</description> </property> <property> <name>storage.data.store.class</name> <value>org.apache.gora.sql.store.SqlStore</value> <description>*</description> </property>
java.lang.NullPointerException at org.apache.avro.util.Utf8.<init>(Utf8.java:37) at org.apache.nutch.crawl.GeneratorReducer.setup(GeneratorReducer.java:100) at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174) at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:398) </init>
<property> <name>generate.batch.id</name> <value>*</value> </property>
(关于ant的命令,这里就不说明了),只需要切换到${APACHE_NUTCH_HOME}下执行ant clean 然后ant 即可。构建完毕后会在${APACHE_NUTCH_HOME}目录下生成runtime 文件夹。
Step:7 网页抓取,种子配置
创建种子文件
cd${APACHE_NUTCH_HOME}/runtime/local mkdir -p urls echo 'http://www.sina.com.cn' > urls/seed.txt echo 'http://www.ifeng.com' > urls/seed.txt
bin/nutchcrawl urls -depth 5 -topN 10
至此,已经完成了基本的配置。

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Quelle carte graphique est bonne pour le Core i73770 ? La RTX3070 est une carte graphique très puissante avec d'excellentes performances et une technologie avancée. Que vous jouiez à des jeux, rendiez des graphiques ou effectuiez du machine learning, le RTX3070 peut le gérer facilement. Il utilise l'architecture Ampere de NVIDIA, dispose de 5888 cœurs CUDA et de 8 Go de mémoire GDDR6, ce qui peut offrir une expérience de jeu fluide et des effets graphiques de haute qualité. Le RTX3070 prend également en charge la technologie de lancer de rayons, qui peut présenter des effets de lumière et d'ombre réalistes. Dans l’ensemble, la RTX3070 est une carte graphique puissante et avancée adaptée à ceux qui recherchent des performances et une qualité élevées. RTX3070 est une carte graphique de la série NVIDIA. Utilisation de NVIDIA de 2e génération

i73770 avec rx5600xt La carte graphique RX5600XT étant adaptée au processeur R53600, nous avons choisi le i7-3770. Les résultats d'évaluation de la carte graphique RX5600XT sont les suivants : La carte graphique RX5600XT est une excellente carte graphique et a très bien fonctionné après les tests. Il adopte l'architecture RDNA d'AMD, dispose de 6 Go de mémoire vidéo GDDR6 et d'une interface mémoire de 192 bits, prend en charge le bus PCIe4.0 et offre d'excellentes performances de jeu. Dans tous les tests, la carte graphique RX5600XT s'est bien comportée. À haute résolution, il offre une expérience de jeu fluide et maintient des fréquences d'images supérieures à 60 FPS dans la plupart des jeux. Dans les derniers jeux, cela peut aussi fournir de bons

Est-il raisonnable d'utiliser 13600kf avec 3070 ? "Words Play with Flowers" est un jeu de réflexion textuel populaire avec de nouveaux niveaux mis à jour chaque jour. Parmi eux, Nostalgia Cleaning est l'un des niveaux, obligeant les joueurs à trouver 12 endroits dans l'image qui ne correspondent pas à l'époque. Aujourd'hui, je vais partager avec vous la stratégie pour terminer le niveau de nettoyage nostalgique dans "Word Play Flowers", afin que les joueurs qui n'ont pas encore terminé le niveau connaissent les méthodes de fonctionnement spécifiques. S'il est utilisé pour jouer à des jeux, il n'y a aucune différence entre le I513600KF et le I713700KF en termes d'expérience de jeu. Dans ce cas, choisissez simplement le I513600KF pour le processeur. Pour la carte graphique, vous pouvez choisir le RTX3070. Il convient de noter que différents jeux ont des exigences matérielles différentes si le petit mignon joue simplement à DOTALO.

1. Présentation du châssis MX330 Le MX330 est un châssis à tour moyenne produit par Shenzhen Hangjia Technology Co., Ltd. Il a une apparence simple et élégante et est composé de plaques d'acier de haute qualité. Il a d'excellentes performances de refroidissement et évolutivité, et est très approprié pour une utilisation avec des cartes mères et des processeurs hautes performances 2. Introduction au processeur Core i5 de 10e génération Le processeur Core i5 de 10e génération est un processeur hautes performances lancé par Intel utilisant un 10 nm. processus, il a une fréquence plus élevée et une consommation d’énergie inférieure. Il dispose de puissantes capacités de traitement multicœur et d'une technologie d'accélération intelligente, qui peuvent répondre aux besoins d'utilisation quotidienne et aux besoins de jeu légers de la plupart des utilisateurs. 3. Les performances de dissipation thermique du châssis MX330. La conception du châssis MX330 adopte un style de grille entièrement noire, avec des trous de maillage de grande surface à l'avant et sur le dessus.

Quelle carte mère est la meilleure pour les ordinateurs Xiaomi ? À l'ère actuelle de développement rapide des technologies de l'information, les ordinateurs sont devenus l'un des outils indispensables dans la vie des gens. Lors du choix d’un ordinateur, la carte mère est l’un des composants les plus importants. En tant qu'entreprise technologique bien connue, Xiaomi a également lancé une série de produits informatiques hautes performances. Alors, quel type de carte mère Xiaomi devrait-il choisir ? Cet article détaillera les performances sous plusieurs aspects tels que les performances, la stabilité, l'évolutivité et la réputation de la marque. Les performances sont l'une des considérations les plus importantes lors du choix d'une carte mère. Les ordinateurs haut de gamme de Xiaomi ont les configurations les plus élevées, vous devez donc choisir une carte mère puissante qui leur correspond. On peut envisager de choisir une carte mère prenant en charge la dernière génération de processeurs, comme le processeur Intel Core de 10e génération. Extension de mémoire et de stockage de la carte mère

Lorsque vous choisissez une unité centrale de traitement (CPU) aux spécifications minimales, il est important de trouver un équilibre entre le prix abordable et les besoins de base. Pour les utilisateurs utilisant des cartes mères 1150, le choix d'une configuration CPU minimale appropriée peut répondre aux besoins du travail de bureau quotidien, de la navigation Web et des divertissements légers. Cet article vous recommandera plusieurs processeurs adaptés en termes de performances, de prix, de consommation d'énergie et d'évolutivité. Parmi les sélections de processeurs les moins performants, les performances sont une considération importante. Pour les utilisateurs de bureautique générale et de divertissement léger, un processeur quad-core suffit à répondre aux besoins. Les séries Intel i3 et PentiumG sont toutes deux de bons choix. La série i3 offre des performances plus élevées et un cache plus grand, adapté à la gestion d'applications multitâches et multithread. La série PentiumG est

Quel type de souris dois-je utiliser avec mon ordinateur portable ? Il est préférable d'utiliser une souris sans fil. 1. La souris sans fil n'a pas de problème d'emmêlement des fils, ce qui la rend plus pratique à utiliser. 2. Équipé d'une souris sans fil, vous pouvez éviter les câbles encombrés et offrir plus de liberté lors de vos déplacements. 3. Il n'est pas nécessaire d'utiliser un câble pour connecter la souris sans fil à l'ordinateur portable, et le câble ne sera pas facilement retiré, ce qui rendra l'expérience d'utilisation meilleure. 4. Dans des situations telles que les voyages d'affaires, les souris sans fil sont plus pratiques à transporter. Lorsque vous utilisez une souris avec un ordinateur portable, vous devez choisir une souris sans fil. Comme une souris sans fil ne nécessite pas de câble, elle est plus pratique à utiliser et peut éviter les enchevêtrements dans le câble. Dans le même temps, la sensibilité et la vitesse de réponse d'une souris sans fil sont meilleures que celles d'une souris filaire, ce qui peut améliorer l'efficacité du travail. Si vous devez l'utiliser pendant une longue période, il est recommandé de choisir un chargeur

Est-il approprié de coupler le i56500 avec le GTX1070 ? Si vous voulez être plus sérieux, la réponse est non. Mais sur la base de la situation réelle, cette combinaison ne pose aucun problème. Pourquoi dire non ? Parce que pour les jeux autonomes à grande échelle qui nécessitent plus de configuration maintenant, si vous utilisez i76700k ou i56500 avec gtx1070 et que les autres configurations et paramètres sont les mêmes, la fréquence d'images sera généralement différente et la fréquence d'images de 6700k sera ont tendance à être plus élevés. En fait, cela ressemble plus au principe du baril. La question n'est pas de savoir si vous pouvez vous le permettre ou non. La clé réside dans la forte demande en CPU dans le jeu. Mais compte tenu de la compatibilité du i56500 et du gtx1070. dans la plupart des jeux, la fréquence d'images est déjà assez impressionnante et capable de fournir une excellente expérience de jeu, donc quelque chose comme ça
