웹 프론트엔드 HTML 튜토리얼 HTMLParser 사용에 대한 자세한 설명 (1)

HTMLParser 사용에 대한 자세한 설명 (1)

Dec 29, 2016 pm 03:49 PM
html parser

검색 엔진 개발 연구에 있어서 HTML 웹 페이지 처리는 핵심 링크입니다. 인터넷에는 많은 오픈 소스 코드가 있습니다. Java의 경우 HTMLParser가 잘 알려져 있고 널리 사용됩니다. HTMLParser의 홈페이지는 http://htmlparser.sourceforge.net/이며, 마지막 업데이트는 2006년 9월 버전 1.6이었습니다. 그러나 그것은 중요하지 않습니다. HTML의 내용은 오랫동안 크게 변경되지 않았으며 HTMLParser는 기본적으로 이를 처리하는 데 아무런 문제가 없습니다. HTMLParser는 간결하고 빠르다는 장점이 있습니다. 단점은 관련 문서가 상대적으로 적고(영어로 된 문서도 거의 없음) 직접 탐색해야 하는 기능이 많다는 것입니다. 초보자에게는 여전히 약간의 노력이 필요하지만 일단 시작하면 HTMLParser의 구조 설계가 매우 영리하고 실용적이며 기본적으로 다양한 요구를 충족할 수 있다는 것을 알게 될 것입니다.
여기에는 지난 몇 달 간의 경험을 바탕으로 HTMLParser를 처음 접하는 친구들에게 도움이 되기를 바랍니다. (단, 대학 입시에서 중국어 점수가 합격보다 1점밖에 높지 않았기 때문에 문법 문제는 모두 양해해 주시기 바랍니다.)

HTMLParser의 핵심 모듈은 org.htmlparser.Parser입니다. 클래스 이 클래스는 실제로 HTML 페이지의 처리를 완료합니다. 이 클래스에는 다음과 같은 생성자가 있습니다.

public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一个静态类 public static Parser createParser (String html, String charset);
로그인 후 복사

대부분의 사용자에게 가장 일반적으로 사용되는 방법은 URLConnection 또는 웹 페이지 콘텐츠가 포함된 문자열을 통해 Parser를 초기화하거나 정적 함수를 사용하여 생성하는 것입니다. 파서 객체. ParserFeedback의 코드는 매우 간단하며 분석 프로세스를 디버깅하고 추적하도록 설계되었으며 일반적으로 변경할 필요가 없습니다. Lexer를 사용하는 것은 비교적 고급 주제이므로 나중에 논의하겠습니다.
여기서 더 흥미로운 점은 페이지의 인코딩 방식을 설정해야 할 경우 Lexer를 사용하지 않고 정적 함수만 있다는 점입니다. 대부분의 중국어 페이지에서는 이 방법을 좀 더 자주 활용해야 할 것 같습니다.

다음은 Parser 초기화 예시이다.

/**
* @author www.baizeju.com
*/
package com.baizeju.htmlparsertester;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.FileInputStream;
import java.io.File;
import java.net.HttpURLConnection;
import java.net.URL;
import org.htmlparser.visitors.TextExtractingVisitor;
import org.htmlparser.Parser;
/**
* @author www.baizeju.com
*/
public class Main {
private static String ENCODE = "GBK";
private static void message( String szMsg ) {
try{ System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding"))); } catch(Exception e ){}
}
public static String openFile( String szFileName ) {
try {
BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );
String szContent="";
String szTemp;
while ( (szTemp = bis.readLine()) != null) {
szContent+=szTemp+"/n";
}
bis.close();
return szContent;
}
catch( Exception e ) {
return "";
}
}
public static void main(String[] args) {
String szContent = openFile( "E:/My Sites/HTMLParserTester.html");
try{
//Parser parser = Parser.createParser(szContent, ENCODE);
//Parser parser = new Parser( szContent );
Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
String textInPage = visitor.getExtractedText();
message(textInPage);
}
catch( Exception e ) { 
}
}
}
로그인 후 복사

강조한 부분은 여러 가지 초기화 방법을 테스트한 결과입니다. Parser가 콘텐츠를 출력할 수 있다는 것을 알 수 있다면 나중에 Parser 콘텐츠에 액세스하는 방법에 대해 논의하겠습니다.

위 내용은 HTMLParser(1) 사용에 대한 자세한 설명입니다. 더 많은 관련 내용은 PHP 중국어 홈페이지(www.php.cn)를 참고해주세요!


본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

HTML의 테이블 테두리 HTML의 테이블 테두리 Sep 04, 2024 pm 04:49 PM

HTML의 테이블 테두리 안내. 여기에서는 HTML의 테이블 테두리 예제를 사용하여 테이블 테두리를 정의하는 여러 가지 방법을 논의합니다.

HTML의 중첩 테이블 HTML의 중첩 테이블 Sep 04, 2024 pm 04:49 PM

HTML의 Nested Table에 대한 안내입니다. 여기에서는 각 예와 함께 테이블 내에 테이블을 만드는 방법을 설명합니다.

HTML 여백-왼쪽 HTML 여백-왼쪽 Sep 04, 2024 pm 04:48 PM

HTML 여백-왼쪽 안내. 여기에서는 HTML margin-left에 대한 간략한 개요와 코드 구현과 함께 예제를 논의합니다.

HTML 테이블 레이아웃 HTML 테이블 레이아웃 Sep 04, 2024 pm 04:54 PM

HTML 테이블 레이아웃 안내. 여기에서는 HTML 테이블 레이아웃의 값에 대해 예제 및 출력 n 세부 사항과 함께 논의합니다.

PHP에서 HTML/XML을 어떻게 구문 분석하고 처리합니까? PHP에서 HTML/XML을 어떻게 구문 분석하고 처리합니까? Feb 07, 2025 am 11:57 AM

이 튜토리얼은 PHP를 사용하여 XML 문서를 효율적으로 처리하는 방법을 보여줍니다. XML (Extensible Markup Language)은 인간의 가독성과 기계 구문 분석을 위해 설계된 다목적 텍스트 기반 마크 업 언어입니다. 일반적으로 데이터 저장 AN에 사용됩니다

HTML에서 텍스트 이동 HTML에서 텍스트 이동 Sep 04, 2024 pm 04:45 PM

HTML에서 텍스트 이동 안내. 여기서는 Marquee 태그가 구문과 함께 작동하는 방식과 구현할 예제에 대해 소개합니다.

HTML 정렬 목록 HTML 정렬 목록 Sep 04, 2024 pm 04:43 PM

HTML 순서 목록에 대한 안내입니다. 여기서는 HTML Ordered 목록 및 유형에 대한 소개와 각각의 예에 대해서도 설명합니다.

HTML 온클릭 버튼 HTML 온클릭 버튼 Sep 04, 2024 pm 04:49 PM

HTML onclick 버튼에 대한 안내입니다. 여기에서는 각각의 소개, 작업, 예제 및 다양한 이벤트의 onclick 이벤트에 대해 설명합니다.

See all articles