PHP DOMDocument 및 DOMXpath를 사용하여 HTML에서 특정 텍스트를 효율적으로 추출하려면 어떻게 해야 합니까?

Susan Sarandon
풀어 주다: 2024-10-31 01:18:29
원래의
271명이 탐색했습니다.

How can I efficiently extract specific text from HTML using PHP DOMDocument and DOMXpath?

PHP DOMDocument로 HTML 구문 분석

PHP에서 DOMDocument 클래스를 활용하면 정규 표현식을 사용하는 것보다 HTML을 구문 분석하는 데 더 효율적이고 안정적인 방법이 제공됩니다. . HTML 문서에서 특정 텍스트를 추출하려면 DOMXpath 클래스가 중요한 역할을 합니다.

예:

다음 HTML 문자열을 고려하세요.

<code class="html"><div class="main">
    <div class="text">
        Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
        Capture this text 2
    </div>
</div></code>
로그인 후 복사

우리의 목표는 "Capture this text 1" 및 "Capture this text 2" 텍스트를 검색하는 것입니다.

XPath 쿼리 접근 방식:

DOMDocument에 의존하는 대신 ::getElementsByTagName은 지정된 이름을 가진 모든 태그를 검색하며 XPath를 사용하면 구조에 따라 특정 요소를 타겟팅할 수 있습니다.

<code class="php">$html = <<<HTML
<div class="main">
    <div class="text">
        Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
        Capture this text 2
    </div>
</div>
HTML;

$dom = new DOMDocument();
$dom->loadHTML($html);

$xpath = new DOMXPath($dom);</code>
로그인 후 복사

XPath를 사용하면 다음 쿼리를 실행할 수 있습니다.

<code class="php">$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');
foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}</code>
로그인 후 복사

이 쿼리는 "main" 클래스가 있는 div 태그 내에 중첩된 "text" 클래스가 있는 모든 div 태그를 검색합니다.

출력:

string 'Capture this text 1' (length=19)
string 'Capture this text 2' (length=19)
로그인 후 복사

이는 정확한 HTML 구문 분석 및 특정 콘텐츠 추출을 위해 PHP의 DOMDocument 및 DOMXpath를 사용하는 효과를 보여줍니다.

위 내용은 PHP DOMDocument 및 DOMXpath를 사용하여 HTML에서 특정 텍스트를 효율적으로 추출하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿