기초 없이 Java를 작성하고 Baidu 홈페이지에서 Zhihu 크롤러를 먼저 연습해 보세요.-java지도 시간-php.cn

기초 없이 Java를 작성하고 Baidu 홈페이지에서 Zhihu 크롤러를 먼저 연습해 보세요.

黄舟

풀어 주다： 2016-12-24 11:11:55

원래의

1510명이 탐색했습니다.

지난 회에서 Zhihu 크롤러를 만들기 위해 Java를 사용해야 한다는 이야기를 했으니, 이번에는 코드를 사용하여 웹페이지의 콘텐츠를 얻는 방법에 대해 알아보겠습니다.

우선 HTML, CSS, JS, AJAX에 대한 경험이 없다면 W3C(click me, click me)에 가서 조금 배워보는 것을 추천한다.

HTML의 경우 GET 액세스 및 POST 액세스 문제가 포함됩니다.

이 측면에 대한 이해가 부족하다면 W3C의 "GET vs. POST" 기사를 읽어보세요.

아하, 여기서는 자세히 다루지 않겠습니다.

그런 다음 Java를 사용하여 웹페이지 콘텐츠를 크롤링해야 합니다.

이때 우리 바이두가 도움이 될 것입니다.

그렇습니다. 그는 더 이상 무명 인터넷 속도 테스터가 아니라 이제 곧 우리의 파충류 실험동물이 될 것입니다! ~

먼저 바이두 홈페이지를 살펴보겠습니다:

기초 없이 Java를 작성하고 Baidu 홈페이지에서 Zhihu 크롤러를 먼저 연습해 보세요.

지금의 이런 페이지가 HTML의 공동작업의 결과물이라는 것은 다들 아시리라 믿습니다. 그리고 CSS.

브라우저에서 페이지를 마우스 오른쪽 버튼으로 클릭하고 "페이지 소스 코드 보기"를 선택합니다.

기초 없이 Java를 작성하고 Baidu 홈페이지에서 Zhihu 크롤러를 먼저 연습해 보세요.

예, 그것은 바로 이 일과 같습니다. 바이두 페이지의 소스코드입니다.

다음 작업은 크롤러를 사용하여 동일한 것을 얻는 것입니다.

먼저 간단한 소스 코드를 살펴보겠습니다.

import java.io.*;
import java.net.*;
public class Main {
 public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.baidu.com";
  // 定义一个字符串用来存储网页内容
  String result = "";
  // 定义一个缓冲字符输入流
  BufferedReader in = null;
  try {
   // 将string转成url对象
   URL realUrl = new URL(url);
   // 初始化一个链接到那个url的连接
   URLConnection connection = realUrl.openConnection();
   // 开始实际的连接
   connection.connect();
   // 初始化 BufferedReader输入流来读取URL的响应
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用来临时存储抓取到的每一行的数据
   String line;
   while ((line = in.readLine()) != null) {
    //遍历抓取到的每一行并将其存储到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("发送GET请求出现异常！" + e);
   e.printStackTrace();
  }
  // 使用finally来关闭输入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  System.out.println(result);
 }
}

로그인 후 복사

위는 Java 시뮬레이션의 Main 메소드입니다. Baidu에 액세스하려면

을 실행하면 됩니다. 결과를 보려면:

아하, 이전에 브라우저에서 본 것과 똑같습니다. 이제 가장 간단한 크롤러가 준비되었습니다.

하지만 이 모든 것이 내가 원하는 것은 아닙니다. 그 중에서 내가 원하는 것을 어떻게 얻을 수 있나요?

바이두의 큰 발 로고를 예로 들어보겠습니다.

임시필요:

바이두 로고의 큰 발 사진 링크를 받으세요.

먼저 브라우저를 보는 방법부터 알아보겠습니다.

이미지를 마우스 오른쪽 버튼으로 클릭하고 요소 검사를 선택합니다(Firefox, Google, IE11 모두 이 기능이 있지만 이름은 다릅니다).

기초 없이 Java를 작성하고 Baidu 홈페이지에서 Zhihu 크롤러를 먼저 연습해 보세요.

아하, 많은 div에 둘러싸인 불쌍한 img 태그가 보이시죠.

이 src는 이미지 링크입니다.

그럼 자바에서는 어떻게 할까요?

코드 시연을 용이하게 하기 위해 모든 코드를 클래스별로 캡슐화하지 않았으니 미리 양해해 주시기 바랍니다.

먼저 이전 코드를 sendGet 함수로 캡슐화합니다.

import java.io.*;
import java.net.*;
public class Main {
 static String sendGet(String url) {
  // 定义一个字符串用来存储网页内容
  String result = "";
  // 定义一个缓冲字符输入流
  BufferedReader in = null;
  try {
   // 将string转成url对象
   URL realUrl = new URL(url);
   // 初始化一个链接到那个url的连接
   URLConnection connection = realUrl.openConnection();
   // 开始实际的连接
   connection.connect();
   // 初始化 BufferedReader输入流来读取URL的响应
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用来临时存储抓取到的每一行的数据
   String line;
   while ((line = in.readLine()) != null) {
    // 遍历抓取到的每一行并将其存储到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("发送GET请求出现异常！" + e);
   e.printStackTrace();
  }
  // 使用finally来关闭输入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.baidu.com";
  // 访问链接并获取页面内容
  String result = sendGet(url);
  System.out.println(result);
 }
}

로그인 후 복사

이것이 좀 더 깔끔해 보입니다. 강박 장애가 있는 저를 용서해 주세요.

다음 작업은 얻은 수많은 것들 중에서 사진에 대한 링크를 찾는 것입니다.

우리가 생각할 수 있는 첫 번째 방법은 indexof 함수를 사용하여 페이지 소스 코드의 문자열 결과에서 문자열 하위 문자열을 검색하는 것입니다.

예, 이 방법을 사용하면 직접 indexOf("src")를 사용하여 시작 일련 번호를 찾은 다음 종료 일련 번호를 급하게 가져오는 등 이 문제를 천천히 해결할 수 있습니다.

그러나 이 방법을 항상 사용할 수는 없습니다. 결국 짚신은 걸어다니는 데만 적합합니다. 나중에 머리를 지탱하려면 의족을 잘라야 합니다.

실수를 용서하시고 계속 진행해주세요.

그럼 이 이미지의 src는 어떻게 찾나요?

네, 아래 관객분들 말씀대로 정기매칭입니다.

정규식에 대해 잘 모르는 학생이 있는 경우 [Python] 웹 크롤러(7): Python의 정규식 자습서를 참조하세요.

간단히 말하면 정규식은 매칭과 같습니다.

예를 들어 뚱뚱한 남자 세 명이 빨간색 옷, 파란색 옷, 녹색 옷을 입고 서 있습니다.