PHP의 웹 스크래핑 기술: URL에서 페이지 정보 추출
PHP에서는 제목과 같은 특정 페이지 정보를 효율적으로 추출할 수 있습니다. , 이미지, 설명은 사용자가 제공한 URL에서 가져옵니다. 이를 달성하는 방법은 다음과 같습니다.
Simple_html_dom 라이브러리 사용:
간편한 구현을 위해 simple_html_dom 라이브러리 사용을 고려하세요.
<code class="php">require 'simple_html_dom.php'; $html = file_get_html($url); $title = $html->find('title', 0); $image = $html->find('img', 0); echo $title->plaintext."\n"; echo $image->src;</code>
외부 라이브러리 없이:
DOMDocument를 사용하는 것이 이상적인 접근 방식은 아닐 수 있지만 정규식을 사용하면 외부 라이브러리를 피할 수도 있습니다. 그러나 이 접근 방식은 복잡성으로 인해 HTML에는 권장되지 않습니다.
<code class="php">$data = file_get_contents($url); preg_match('/<title>([^<]+)<\/title>/i', $data, $matches); $title = $matches[1]; preg_match('/<img[^>]*src=["\']([^\'"]+)["\'][^>]*>/i', $data, $matches); $img = $matches[1]; echo $title."\n"; echo $img;</code>
이 기술은 정규 표현식을 사용하여 페이지 제목을 추출한 후 페이지에서 첫 번째 이미지를 추출하는 방법을 보여줍니다.
위 내용은 PHP를 사용하여 URL에서 페이지 정보를 추출하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!