URL 수정 없이 웹사이트 콘텐츠 스크랩
웹 개발 중에는 외부 웹사이트의 콘텐츠를 스크랩하고 자신의 페이지에 특정 정보를 표시합니다. 스크래핑 행위로 인해 페이지의 URL이 수정되면 문제가 될 수 있습니다.
질문:
내 페이지의 URL(예: , http://localhost/web/Login.html)은 로그인 버튼을 클릭한 후 스크랩된 웹사이트(예: http://mail.in.com/mails/inbox.php?nomail=...)의 웹사이트로 변경됩니다. . URL을 변경하지 않고 원하는 콘텐츠를 어떻게 스크랩할 수 있습니까?
답변:
이 문제를 해결하려면 PHP Simple HTML DOM Parser를 사용하는 것이 적합한 솔루션입니다. 이 라이브러리는 빠르고 간단하며 다양한 HTML 구문 분석 기능을 제공하는 데 탁월합니다. URL을 수정하지 않고도 HTML 페이지 내의 개별 요소를 조작하고 액세스할 수 있습니다.
Google 메인 페이지에서 모든 링크를 검색하는 방법을 보여주는 공식 웹사이트의 다음 예를 고려하세요.
<code class="php">// Create DOM from URL or file $html = file_get_html('http://www.google.com/'); // Find all images foreach($html->find('img') as $element) echo $element->src . '<br>'; // Find all links foreach($html->find('a') as $element) echo $element->href . '<br>';</code>
PHP Simple HTML DOM Parser를 활용하면 URL 무결성을 손상시키지 않고 웹페이지 콘텐츠를 효과적으로 스크랩하고 원하는 정보를 자신의 페이지에 표시할 수 있습니다.
위 내용은 페이지 URL을 수정하지 않고 웹사이트 콘텐츠를 긁는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!