Zhihu 편집자가 추천하는 콘텐츠를 얻기 위해 기초가 전혀 없는 Java Zhihu 크롤러 작성 (2)
웹 페이지는 메타 태그의 문자 집합을 통해 웹 페이지 인코딩을 설정할 수 있습니다. 예:
<meta charset="utf-8" />
페이지 소스 코드를 보려면 마우스 오른쪽 버튼을 클릭합니다.
보시다시피 Zhihu는 UTF-8 인코딩을 사용합니다.
페이지 소스 코드 보기와 요소 검사의 차이점을 설명하겠습니다.
페이지 소스 코드를 보면 전체 페이지의 코드가 모두 표시됩니다. 이는 HTML 태그에 따른 형식이 아닙니다. 이는 소스 코드를 직접 보는 것과 같습니다. 메타와 같은 전체 웹페이지.
요소를 검사하거나 일부 브라우저에서는 이를 뷰 요소라고 부르는데, 이는 개체의 속성과 태그를 개별적으로 보는 데 더 적합합니다.
자, 이제 문제가 인코딩에 있다는 것을 알았고 다음 단계는 캡처된 콘텐츠의 인코딩을 변환하는 것입니다.
Java로 구현하는 것은 매우 간단합니다. InputStreamReader에서 인코딩 방법만 지정하면 됩니다.
// 初始化 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream(),"UTF-8"));
이때 프로그램을 다시 실행하면 제목이 표시됩니다. 정상적으로 표시될 수 있습니다:
알겠습니다! 매우 좋은!
하지만 이제 제목은 하나뿐이므로 모든 제목이 필요합니다.
정규식을 약간 수정하고 검색된 결과를 ArrayList에 저장합니다.
import java.io.*; import java.net.*; import java.util.ArrayList; import java.util.regex.*; public class Main { static String SendGet(String url) { // 定义一个字符串用来存储网页内容 String result = ""; // 定义一个缓冲字符输入流 BufferedReader in = null; try { // 将string转成url对象 URL realUrl = new URL(url); // 初始化一个链接到那个url的连接 URLConnection connection = realUrl.openConnection(); // 开始实际的连接 connection.connect(); // 初始化 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream(), "UTF-8")); // 用来临时存储抓取到的每一行的数据 String line; while ((line = in.readLine()) != null) { // 遍历抓取到的每一行并将其存储到result里面 result += line; } } catch (Exception e) { System.out.println("发送GET请求出现异常!" + e); e.printStackTrace(); } // 使用finally来关闭输入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; } static ArrayList<String> RegexString(String targetStr, String patternStr) { // 预定义一个ArrayList来存储结果 ArrayList<String> results = new ArrayList<String>(); // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容 Pattern pattern = Pattern.compile(patternStr); // 定义一个matcher用来做匹配 Matcher matcher = pattern.matcher(targetStr); // 如果找到了 boolean isFind = matcher.find(); // 使用循环将句子里所有的kelvin找出并替换再将内容加到sb里 while (isFind) { //添加成功匹配的结果 results.add(matcher.group(1)); // 继续查找下一个匹配对象 isFind = matcher.find(); } return results; } public static void main(String[] args) { // 定义即将访问的链接 String url = "http://www.zhihu.com/explore/recommendations"; // 访问链接并获取页面内容 String result = SendGet(url); // 使用正则匹配图片的src内容 ArrayList<String> imgSrc = RegexString(result, "question_link.+?>(.+?)<"); // 打印结果 System.out.println(imgSrc); } }
이런 방식으로 모든 결과를 일치시킬 수 있습니다(ArrayList가 직접 인쇄되기 때문에 대괄호와 쉼표가 있습니다):
자, 이것이 Zhihu 크롤러의 첫 번째 단계입니다.
그러나 이 방법으로는 모든 질문과 답변을 담아낼 수 있는 방법이 없다는 것을 알 수 있습니다.
캡처된 모든 개체를 저장하려면 Zhihu 캡슐화 클래스를 설계해야 합니다.
위 내용은 Zhihu 편집자 추천 콘텐츠(2)를 얻기 위해 기본 지식이 전혀 없는 Java Zhihu 크롤러를 작성하는 내용입니다. PHP 중국어 웹사이트(www.php.cn)로 이동하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











자바의 암스트롱 번호 안내 여기에서는 일부 코드와 함께 Java의 Armstrong 번호에 대한 소개를 논의합니다.

Java의 난수 생성기 안내. 여기서는 예제를 통해 Java의 함수와 예제를 통해 두 가지 다른 생성기에 대해 설명합니다.

Java의 Weka 가이드. 여기에서는 소개, weka java 사용 방법, 플랫폼 유형 및 장점을 예제와 함께 설명합니다.

Java의 Smith Number 가이드. 여기서는 정의, Java에서 스미스 번호를 확인하는 방법에 대해 논의합니다. 코드 구현의 예.

이 기사에서는 가장 많이 묻는 Java Spring 면접 질문과 자세한 답변을 보관했습니다. 그래야 면접에 합격할 수 있습니다.

Java 8은 스트림 API를 소개하여 데이터 컬렉션을 처리하는 강력하고 표현적인 방법을 제공합니다. 그러나 스트림을 사용할 때 일반적인 질문은 다음과 같은 것입니다. 기존 루프는 조기 중단 또는 반환을 허용하지만 스트림의 Foreach 메소드는이 방법을 직접 지원하지 않습니다. 이 기사는 이유를 설명하고 스트림 처리 시스템에서 조기 종료를 구현하기위한 대체 방법을 탐색합니다. 추가 읽기 : Java Stream API 개선 스트림 foreach를 이해하십시오 Foreach 메소드는 스트림의 각 요소에서 하나의 작업을 수행하는 터미널 작동입니다. 디자인 의도입니다
