최근에 PHP를 사용하여 HTML 구문 분석이 필요한 크롤러를 작성하려고 합니다. sourceforge에서 PHP Simple HTML DOM Parser라는 프로젝트를 찾았습니다. 이 프로젝트는 jQuery와 유사한 방식으로 CSS 선택기를 통해 지정된 DOM 요소를 반환할 수 있습니다. 강한.
먼저 프로그램 시작 부분에 simple_html_dom.php 파일을 소개합니다
코드를 복사합니다 코드는 다음과 같습니다.
include_once(' simple_html_dom.php');
코드 복사 코드는 다음과 같습니다.
// 문자열에서 DOM 객체 생성
$html = str_get_html('
코드 복사 코드는 다음과 같습니다:
// 모든 앵커를 찾고, 요소 객체의 배열을 반환합니다.
$ret = $html->find(' a');/ / (N)번째 앵커 찾기, 요소 객체를 반환하거나 찾을 수 없으면 null을 반환합니다(0 기반)
$ret = $html->find('a', 0); >// 마지막 앵커를 찾고 요소 객체를 반환하거나 찾을 수 없으면 null을 반환합니다(0 기준)
$ret = $html->find('a', -1)// 모든
// 모든 텍스트 블록 찾기 $es = $html->find('text') // 모든 주석(<--...-->) 블록 찾기
$es = $html->find('comment');
물론 jQuery와 마찬가지로 PHP Simple HTML DOM Parser도 체인 작업과 DOM 요소에 액세스하는 다양한 간단한 방법을 지원합니다
// 예시 echo $html->find("# div1", 0)->children(1)->children(1)->children(2)->id; // 또는
echo $html->getElementById("div1 ")- >childNodes(1)->childNodes(1)->childNodes(2)->getAttribute('id');
위 내용은 http://www.google.com.hk/의 내용을 포함하여 PHP를 사용하여 HTML을 구문 분석하는 http://www.google.com.hk/의 구현 코드를 소개합니다. 튜토리얼.