Maison Java javaDidacticiel Chapitre avancé sur l'écriture du robot Java Zhihu à partir de zéro

Chapitre avancé sur l'écriture du robot Java Zhihu à partir de zéro

Dec 24, 2016 pm 12:00 PM

说到爬虫,使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能,但是对于一些比较高级的功能,比如重定向的处理,HTML标记的去除,仅仅使用URLConnection还是不够的。

在这里我们可以使用HttpClient这个第三方jar包。

接下来我们使用HttpClient简单的写一个爬去百度的Demo:

import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.OutputStream;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
/**
 * 
 * @author CallMeWhy
 * 
 */
public class Spider {
 private static HttpClient httpClient = new HttpClient();
 /**
  * @param path
  *            目标网页的链接
  * @return 返回布尔值,表示是否正常下载目标页面
  * @throws Exception
  *             读取网页流或写入本地文件流的IO异常
  */
 public static boolean downloadPage(String path) throws Exception {
  // 定义输入输出流
  InputStream input = null;
  OutputStream output = null;
  // 得到 post 方法
  GetMethod getMethod = new GetMethod(path);
  // 执行,返回状态码
  int statusCode = httpClient.executeMethod(getMethod);
  // 针对状态码进行处理
  // 简单起见,只处理返回值为 200 的状态码
  if (statusCode == HttpStatus.SC_OK) {
   input = getMethod.getResponseBodyAsStream();
   // 通过对URL的得到文件名
   String filename = path.substring(path.lastIndexOf('/') + 1)
     + ".html";
   // 获得文件输出流
   output = new FileOutputStream(filename);
   // 输出到文件
   int tempByte = -1;
   while ((tempByte = input.read()) > 0) {
    output.write(tempByte);
   }
   // 关闭输入流
   if (input != null) {
    input.close();
   }
   // 关闭输出流
   if (output != null) {
    output.close();
   }
   return true;
  }
  return false;
 }
 public static void main(String[] args) {
  try {
   // 抓取百度首页,输出
   Spider.downloadPage("http://www.baidu.com");
  } catch (Exception e) {
   e.printStackTrace();
  }
 }
}
Copier après la connexion

但是这样基本的爬虫是不能满足各色各样的爬虫需求的。

先来介绍宽度优先爬虫。

宽度优先相信大家都不陌生,简单说来可以这样理解宽度优先爬虫。

我们把互联网看作一张超级大的有向图,每一个网页上的链接都是一个有向边,每一个文件或没有链接的纯页面则是图中的终点:

Chapitre avancé sur lécriture du robot Java Zhihu à partir de zéro


宽度优先爬虫就是这样一个爬虫,爬走在这个有向图上,从根节点开始一层一层往外爬取新的节点的数据。

宽度遍历算法如下所示:

(1) 顶点 V 入队列。
(2) 当队列非空时继续执行,否则算法为空。
(3) 出队列,获得队头节点 V,访问顶点 V 并标记 V 已经被访问。
(4) 查找顶点 V 的第一个邻接顶点 col。
(5) 若 V 的邻接顶点 col 未被访问过,则 col 进队列。
(6) 继续查找 V 的其他邻接顶点 col,转到步骤(5),若 V 的所有邻接顶点都已经被访问过,则转到步骤(2)。

按照宽度遍历算法,上图的遍历顺序为:A->B->C->D->E->F->H->G->I,这样一层一层的遍历下去。

而宽度优先爬虫其实爬取的是一系列的种子节点,和图的遍历基本相同。

我们可以把需要爬取页面的URL都放在一个TODO表中,将已经访问的页面放在一个Visited表中:

Chapitre avancé sur lécriture du robot Java Zhihu à partir de zéro

则宽度优先爬虫的基本流程如下:

(1) 把解析出的链接和 Visited 表中的链接进行比较,若 Visited 表中不存在此链接, 表示其未被访问过。
(2) 把链接放入 TODO 表中。
(3) 处理完毕后,从 TODO 表中取得一条链接,直接放入 Visited 表中。
(4) 针对这个链接所表示的网页,继续上述过程。如此循环往复。

下面我们就来一步一步制作一个宽度优先的爬虫。

首先,对于先设计一个数据结构用来存储TODO表, 考虑到需要先进先出所以采用队列,自定义一个Quere类:
import java.util.LinkedList;
/**
 * 自定义队列类 保存TODO表
 */
public class Queue {
 /**
  * 定义一个队列,使用LinkedList实现
  */
 private LinkedList<Object> queue = new LinkedList<Object>(); // 入队列
 /**
  * 将t加入到队列中
  */
 public void enQueue(Object t) {
  queue.addLast(t);
 }
 /**
  * 移除队列中的第一项并将其返回
  */
 public Object deQueue() {
  return queue.removeFirst();
 }
 /**
  * 返回队列是否为空
  */
 public boolean isQueueEmpty() {
  return queue.isEmpty();
 }
 /**
  * 判断并返回队列是否包含t
  */
 public boolean contians(Object t) {
  return queue.contains(t);
 }
 /**
  * 判断并返回队列是否为空
  */
 public boolean empty() {
  return queue.isEmpty();
 }
}
Copier après la connexion

还需要一个数据结构来记录已经访问过的 URL,即Visited表。

考虑到这个表的作用,每当要访问一个 URL 的时候,首先在这个数据结构中进行查找,如果当前的 URL 已经存在,则丢弃这个URL任务。

这个数据结构需要不重复并且能快速查找,所以选择HashSet来存储。

综上,我们另建一个SpiderQueue类来保存Visited表和TODO表:

import java.util.HashSet;
import java.util.Set;
/**
 * 自定义类 保存Visited表和unVisited表
 */
public class SpiderQueue {
 /**
  * 已访问的url集合,即Visited表
  */
 private static Set<Object> visitedUrl = new HashSet<>();
 /**
  * 添加到访问过的 URL 队列中
  */
 public static void addVisitedUrl(String url) {
  visitedUrl.add(url);
 }
 /**
  * 移除访问过的 URL
  */
 public static void removeVisitedUrl(String url) {
  visitedUrl.remove(url);
 }
 /**
  * 获得已经访问的 URL 数目
  */
 public static int getVisitedUrlNum() {
  return visitedUrl.size();
 }
 /**
  * 待访问的url集合,即unVisited表
  */
 private static Queue unVisitedUrl = new Queue();
 /**
  * 获得UnVisited队列
  */
 public static Queue getUnVisitedUrl() {
  return unVisitedUrl;
 }
 /**
  * 未访问的unVisitedUrl出队列
  */
 public static Object unVisitedUrlDeQueue() {
  return unVisitedUrl.deQueue();
 }
 /**
  * 保证添加url到unVisitedUrl的时候每个 URL只被访问一次
  */
 public static void addUnvisitedUrl(String url) {
  if (url != null && !url.trim().equals("") && !visitedUrl.contains(url)
    && !unVisitedUrl.contians(url))
   unVisitedUrl.enQueue(url);
 }
 /**
  * 判断未访问的 URL队列中是否为空
  */
 public static boolean unVisitedUrlsEmpty() {
  return unVisitedUrl.empty();
 }
}
Copier après la connexion

上面是一些自定义类的封装,接下来就是一个定义一个用来下载网页的工具类,我们将其定义为DownTool类:

package controller;
import java.io.*;
import org.apache.commons.httpclient.*;
import org.apache.commons.httpclient.methods.*;
import org.apache.commons.httpclient.params.*;
public class DownTool {
 /**
  * 根据 URL 和网页类型生成需要保存的网页的文件名,去除 URL 中的非文件名字符
  */
 private String getFileNameByUrl(String url, String contentType) {
  // 移除 "http://" 这七个字符
  url = url.substring(7);
  // 确认抓取到的页面为 text/html 类型
  if (contentType.indexOf("html") != -1) {
   // 把所有的url中的特殊符号转化成下划线
   url = url.replaceAll("[\\?/:*|<>\"]", "_") + ".html";
  } else {
   url = url.replaceAll("[\\?/:*|<>\"]", "_") + "."
     + contentType.substring(contentType.lastIndexOf("/") + 1);
  }
  return url;
 }
 /**
  * 保存网页字节数组到本地文件,filePath 为要保存的文件的相对地址
  */
 private void saveToLocal(byte[] data, String filePath) {
  try {
   DataOutputStream out = new DataOutputStream(new FileOutputStream(
     new File(filePath)));
   for (int i = 0; i < data.length; i++)
    out.write(data[i]);
   out.flush();
   out.close();
  } catch (IOException e) {
   e.printStackTrace();
  }
 }
 // 下载 URL 指向的网页
 public String downloadFile(String url) {
  String filePath = null;
  // 1.生成 HttpClinet对象并设置参数
  HttpClient httpClient = new HttpClient();
  // 设置 HTTP连接超时 5s
  httpClient.getHttpConnectionManager().getParams()
    .setConnectionTimeout(5000);
  // 2.生成 GetMethod对象并设置参数
  GetMethod getMethod = new GetMethod(url);
  // 设置 get请求超时 5s
  getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000);
  // 设置请求重试处理
  getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
    new DefaultHttpMethodRetryHandler());
  // 3.执行GET请求
  try {
   int statusCode = httpClient.executeMethod(getMethod);
   // 判断访问的状态码
   if (statusCode != HttpStatus.SC_OK) {
    System.err.println("Method failed: "
      + getMethod.getStatusLine());
    filePath = null;
   }
   // 4.处理 HTTP 响应内容
   byte[] responseBody = getMethod.getResponseBody();// 读取为字节数组
   // 根据网页 url 生成保存时的文件名
   filePath = "temp\\"
     + getFileNameByUrl(url,
       getMethod.getResponseHeader("Content-Type")
         .getValue());
   saveToLocal(responseBody, filePath);
  } catch (HttpException e) {
   // 发生致命的异常,可能是协议不对或者返回的内容有问题
   System.out.println("请检查你的http地址是否正确");
   e.printStackTrace();
  } catch (IOException e) {
   // 发生网络异常
   e.printStackTrace();
  } finally {
   // 释放连接
   getMethod.releaseConnection();
  }
  return filePath;
 }
}
Copier après la connexion

在这里我们需要一个HtmlParserTool类来处理Html标记:

package controller;
import java.util.HashSet;
import java.util.Set;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import model.LinkFilter;
public class HtmlParserTool {
 // 获取一个网站上的链接,filter 用来过滤链接
 public static Set<String> extracLinks(String url, LinkFilter filter) {
  Set<String> links = new HashSet<String>();
  try {
   Parser parser = new Parser(url);
   parser.setEncoding("gb2312");
   // 过滤 <frame >标签的 filter,用来提取 frame 标签里的 src 属性
   NodeFilter frameFilter = new NodeFilter() {
    private static final long serialVersionUID = 1L;
    @Override
    public boolean accept(Node node) {
     if (node.getText().startsWith("frame src=")) {
      return true;
     } else {
      return false;
     }
    }
   };
   // OrFilter 来设置过滤 <a> 标签和 <frame> 标签
   OrFilter linkFilter = new OrFilter(new NodeClassFilter(
     LinkTag.class), frameFilter);
   // 得到所有经过过滤的标签
   NodeList list = parser.extractAllNodesThatMatch(linkFilter);
   for (int i = 0; i < list.size(); i++) {
    Node tag = list.elementAt(i);
    if (tag instanceof LinkTag)// <a> 标签
    {
     LinkTag link = (LinkTag) tag;
     String linkUrl = link.getLink();// URL
     if (filter.accept(linkUrl))
      links.add(linkUrl);
    } else// <frame> 标签
    {
     // 提取 frame 里 src 属性的链接, 如 <frame src="test.html"/>
     String frame = tag.getText();
     int start = frame.indexOf("src=");
     frame = frame.substring(start);
     int end = frame.indexOf(" ");
     if (end == -1)
      end = frame.indexOf(">");
     String frameUrl = frame.substring(5, end - 1);
     if (filter.accept(frameUrl))
      links.add(frameUrl);
    }
   }
  } catch (ParserException e) {
   e.printStackTrace();
  }
  return links;
 }
}
Copier après la connexion

最后我们来写个爬虫类调用前面的封装类和函数:

package controller;
import java.util.Set;
import model.LinkFilter;
import model.SpiderQueue;
public class BfsSpider {
 /**
  * 使用种子初始化URL队列
  */
 private void initCrawlerWithSeeds(String[] seeds) {
  for (int i = 0; i < seeds.length; i++)
   SpiderQueue.addUnvisitedUrl(seeds[i]);
 }
 // 定义过滤器,提取以 http://www.xxxx.com开头的链接
 public void crawling(String[] seeds) {
  LinkFilter filter = new LinkFilter() {
   public boolean accept(String url) {
    if (url.startsWith("http://www.baidu.com"))
     return true;
    else
     return false;
   }
  };
  // 初始化 URL 队列
  initCrawlerWithSeeds(seeds);
  // 循环条件:待抓取的链接不空且抓取的网页不多于 1000
  while (!SpiderQueue.unVisitedUrlsEmpty()
    && SpiderQueue.getVisitedUrlNum() <= 1000) {
   // 队头 URL 出队列
   String visitUrl = (String) SpiderQueue.unVisitedUrlDeQueue();
   if (visitUrl == null)
    continue;
   DownTool downLoader = new DownTool();
   // 下载网页
   downLoader.downloadFile(visitUrl);
   // 该 URL 放入已访问的 URL 中
   SpiderQueue.addVisitedUrl(visitUrl);
   // 提取出下载网页中的 URL
   Set<String> links = HtmlParserTool.extracLinks(visitUrl, filter);
   // 新的未访问的 URL 入队
   for (String link : links) {
    SpiderQueue.addUnvisitedUrl(link);
   }
  }
 }
 // main 方法入口
 public static void main(String[] args) {
  BfsSpider crawler = new BfsSpider();
  crawler.crawling(new String[] { "http://www.baidu.com" });
 }
}
Copier après la connexion

运行可以看到,爬虫已经把百度网页下所有的页面都抓取出来了:
Chapitre avancé sur lécriture du robot Java Zhihu à partir de zéro


以上就是零基础写Java知乎爬虫之进阶篇的内容,更多相关内容请关注PHP中文网(www.php.cn)!


Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Nombre parfait en Java Nombre parfait en Java Aug 30, 2024 pm 04:28 PM

Guide du nombre parfait en Java. Nous discutons ici de la définition, comment vérifier le nombre parfait en Java ?, des exemples d'implémentation de code.

Weka en Java Weka en Java Aug 30, 2024 pm 04:28 PM

Guide de Weka en Java. Nous discutons ici de l'introduction, de la façon d'utiliser Weka Java, du type de plate-forme et des avantages avec des exemples.

Numéro de Smith en Java Numéro de Smith en Java Aug 30, 2024 pm 04:28 PM

Guide du nombre de Smith en Java. Nous discutons ici de la définition, comment vérifier le numéro Smith en Java ? exemple avec implémentation de code.

Questions d'entretien chez Java Spring Questions d'entretien chez Java Spring Aug 30, 2024 pm 04:29 PM

Dans cet article, nous avons conservé les questions d'entretien Java Spring les plus posées avec leurs réponses détaillées. Pour que vous puissiez réussir l'interview.

Break or Return of Java 8 Stream Forach? Break or Return of Java 8 Stream Forach? Feb 07, 2025 pm 12:09 PM

Java 8 présente l'API Stream, fournissant un moyen puissant et expressif de traiter les collections de données. Cependant, une question courante lors de l'utilisation du flux est: comment se casser ou revenir d'une opération FOREAK? Les boucles traditionnelles permettent une interruption ou un retour précoce, mais la méthode Foreach de Stream ne prend pas directement en charge cette méthode. Cet article expliquera les raisons et explorera des méthodes alternatives pour la mise en œuvre de terminaison prématurée dans les systèmes de traitement de flux. Lire plus approfondie: Améliorations de l'API Java Stream Comprendre le flux Forach La méthode foreach est une opération terminale qui effectue une opération sur chaque élément du flux. Son intention de conception est

Horodatage à ce jour en Java Horodatage à ce jour en Java Aug 30, 2024 pm 04:28 PM

Guide de TimeStamp to Date en Java. Ici, nous discutons également de l'introduction et de la façon de convertir l'horodatage en date en Java avec des exemples.

Programme Java pour trouver le volume de la capsule Programme Java pour trouver le volume de la capsule Feb 07, 2025 am 11:37 AM

Les capsules sont des figures géométriques tridimensionnelles, composées d'un cylindre et d'un hémisphère aux deux extrémités. Le volume de la capsule peut être calculé en ajoutant le volume du cylindre et le volume de l'hémisphère aux deux extrémités. Ce tutoriel discutera de la façon de calculer le volume d'une capsule donnée en Java en utilisant différentes méthodes. Formule de volume de capsule La formule du volume de la capsule est la suivante: Volume de capsule = volume cylindrique volume de deux hémisphères volume dans, R: Le rayon de l'hémisphère. H: La hauteur du cylindre (à l'exclusion de l'hémisphère). Exemple 1 entrer Rayon = 5 unités Hauteur = 10 unités Sortir Volume = 1570,8 unités cubes expliquer Calculer le volume à l'aide de la formule: Volume = π × r2 × h (4

Créer l'avenir : programmation Java pour les débutants absolus Créer l'avenir : programmation Java pour les débutants absolus Oct 13, 2024 pm 01:32 PM

Java est un langage de programmation populaire qui peut être appris aussi bien par les développeurs débutants que par les développeurs expérimentés. Ce didacticiel commence par les concepts de base et progresse vers des sujets avancés. Après avoir installé le kit de développement Java, vous pouvez vous entraîner à la programmation en créant un simple programme « Hello, World ! ». Une fois que vous avez compris le code, utilisez l'invite de commande pour compiler et exécuter le programme, et « Hello, World ! » s'affichera sur la console. L'apprentissage de Java commence votre parcours de programmation et, à mesure que votre maîtrise s'approfondit, vous pouvez créer des applications plus complexes.

See all articles