이 튜토리얼은 오픈 소스 파서를 사용하여 HTML을 효율적으로 구문 분석하여 일반 표현의 복잡성을 피하는 방법을 보여줍니다. 우리는 기사 제목과 설명을 추출하여 Envato Tuts를 예로 들어 긁어 낼 것입니다. 이것은 예시적인 목적을위한 것입니다. 웹 사이트를 긁기 전에 항상 허가를받는 것을 잊지 마십시오.
- 설정
라이브러리 설치를 단순화하기 위해 PHP 패키지 관리자 인 Composer를 설치하여 시작하십시오.
추가 단계는 아래에 자세히 설명되어 있습니다
문서화
포괄적 인 문서는 프로젝트의 공식 Github 저장소에서 확인할 수 있습니다.
---
실용 응용 프로그램 : 스크래핑 envato tuts
Envato Tuts에서 기사 제목과 설명을 추출하기위한 스크립트를 만들어 봅시다. 이것은 데모이며 허가없이 수행해서는 안됩니다. 스크래핑은 서버를 과부하 할 수 있습니다
핵심 코드 스 니펫 :
여기에는 필요한 라이브러리가 포함되어 있으며 기사 데이터를 저장하기위한 배열을 초기화합니다. 함수 (나중에 정의 됨)는 웹 페이지를 가져오고 처리합니다.
데이터 추출
스크립트의 핵심은 기사 정보를 추출합니다
이것은 각 기사 요소 ()를 통해 반복하고 CSS 선택기를 사용하여 제목과 설명을 추출합니다. 각 항목에는 제목 및 설명 쌍이 포함됩니다. 예를 들면 : -
손 처리 페이지 매김
여러 페이지를 처리하려면 "다음"페이지 링크를 식별합니다.
관련 html :
스크립트는이 링크를 찾고, use voku\helper\HtmlDomParser;
require_once 'vendor/autoload.php';
$articles = [];
getArticles('https://code.tutsplus.com/tutorials');
로그인 후 복사
속성을 추출하고, 후속 페이지의 경우 를 재귀 적으로 호출합니다. 결정적으로, 객체는 메모리 피로를 방지하기 위해 지워집니다.
결론
큰 웹 사이트를 구문 분석하는 것은 시간이 많이 걸릴 수 있습니다. 이 튜토리얼은 사용자 친화적 인 라이브러리를 사용하여 HTML 구문 분석을위한 토대를 제공합니다. 이 라이브러리는 편리하지만 PHP의 내장 DOM 조작과 같은 다른 방법은 존재한다는 것을 기억하십시오. 웹 사이트를 긁기 전에 항상 허가 받기의 우선 순위를 정하십시오
위 내용은 간단한 HTML DOM 라이브러리로 HTML 구문 분석 및 스크랩 링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!