백엔드 개발 PHP 튜토리얼 PHP를 사용하여 Douban 영화 리뷰를 크롤링하는 방법에 대한 튜토리얼

PHP를 사용하여 Douban 영화 리뷰를 크롤링하는 방법에 대한 튜토리얼

Jun 14, 2023 pm 05:06 PM
php 비열한 두반

영화 시장의 지속적인 확장과 발전에 따라 영화에 대한 사람들의 수요도 점점 더 높아지고 있습니다. 영화 평가에 관해서는 항상 Douban Film Critics가 더 권위 있고 대중적인 선택이었습니다. 때로는 Douban 영화 리뷰에 대한 정보를 얻기 위해 크롤러 기술을 사용해야 하는 Douban 영화 리뷰에 대한 특정 분석 및 처리도 수행해야 합니다. 이 기사에서는 참고용으로 PHP를 사용하여 Douban 영화 리뷰를 크롤링하는 방법에 대한 튜토리얼을 소개합니다.

  1. 두반 영화의 페이지 주소 가져오기

두반 영화 리뷰를 크롤링하기 전에 먼저 두반 영화의 페이지 주소를 가져와야 합니다. 영화의 페이지 주소는 검색 엔진을 통해 얻거나 Douban Movies의 영화 목록 인터페이스에 직접 액세스하여 얻을 수 있습니다. 예를 들어, 영화 "쇼생크 탈출"의 페이지 주소를 얻으려면 Douban Movies의 영화 목록 인터페이스에서 검색하거나 브라우저에 영화의 페이지 주소를 직접 입력할 수 있습니다: https:/ /movie.douban.com/subject/1292052/.

  1. PHP를 사용하여 Douban 영화 페이지에 액세스하고 페이지 콘텐츠를 얻습니다.

PHP는 웹 페이지 액세스 및 데이터 수집을 위한 cURL 라이브러리를 제공합니다. 다음은 Douban Movies 페이지에 액세스하여 페이지 내용을 가져오는 PHP 코드 예제입니다.

$url = 'https://movie.douban.com/subject/1292052/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch);
curl_close($ch);
echo $html;
로그인 후 복사

코드에서 Douban Movies의 페이지 주소를 먼저 정의한 다음, 컬_init() 함수를 사용하여 cURL 개체를 초기화합니다. . 그런 다음, cur_setopt() 함수를 사용하여 컬 객체의 매개변수를 설정합니다. 여기서 CURLOPT_URL은 액세스된 URL 주소를 설정하고 CURLOPT_RETURNTRANSFER는 반환 결과를 문자열로 설정합니다. 그런 다음 컬_exec() 함수를 사용하여 cURL 크롤링 작업을 수행하고 결과를 $html 변수에 할당합니다. 마지막으로 cur_close() 함수를 사용하여 cURL 세션을 닫고 관련 리소스를 해제한 후 $html 변수의 값을 출력합니다.

위 코드를 실행하여 Douban 영화 페이지의 HTML 콘텐츠를 출력합니다.

  1. Douban 영화 리뷰 페이지의 HTML 콘텐츠를 구문 분석합니다

페이지의 HTML 콘텐츠를 얻은 후 PHP를 사용하여 HTML 콘텐츠를 구문 분석하고 Douban 영화 리뷰 정보를 추출해야 합니다.

PHP에서는 SimpleXML 확장을 사용하여 XML 또는 HTML 데이터를 구문 분석할 수 있습니다. 다음은 Douban 영화 리뷰 페이지의 HTML 콘텐츠를 구문 분석하고 영화 리뷰의 평점 및 리뷰 내용을 추출하는 데 사용되는 PHP 코드 예제입니다.

$url = 'https://movie.douban.com/subject/1292052/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch);
curl_close($ch);

// 使用 SimpleXML 解析 HTML 内容
$xml = simplexml_load_string($html);
$ratings = array();
$comments = array();

// 获取影评评分和评论内容
foreach ($xml->xpath('//div[@class="comment-item"]') as $comment) {
    $rating = $comment->div[2]->span[2]->text();
    $comment_content = $comment->div[2]->p->text();
    $ratings[] = (string)$rating;
    $comments[] = (string)$comment_content;
}

print_r($ratings);
print_r($comments);
로그인 후 복사

코드에서 Douban 영화의 페이지 주소가 먼저 정의되고, 그런 다음 컬을 사용하여 페이지에 액세스하고 HTML 콘텐츠를 가져오는 작업을 수행합니다.

다음으로 simplexml_load_string() 함수를 사용하여 HTML 콘텐츠를 SimpleXML 객체로 구문 분석합니다. 그런 다음 xpath() 함수와 XPath 쿼리 문을 사용하여 페이지의 모든 영화 리뷰 정보를 얻고, foreach 문을 사용하여 각 영화 리뷰를 탐색하고 평점과 댓글 내용을 가져옵니다. 마지막으로 평점과 의견을 각각 $atings 및 $comments 배열에 저장하고 이 두 배열의 내용을 출력합니다.

두반 영화 리뷰 페이지의 모든 영화 리뷰 정보를 파싱하려면 위 코드를 실행하세요.

  1. 영화 리뷰 정보 출력

다음으로, 획득한 영화 리뷰 정보를 출력합니다. HTML과 CSS를 사용하여 출력 내용을 아름답게 만들 수 있습니다. 다음은 Douban 영화 리뷰 페이지의 영화 리뷰 정보를 미화하고 출력하는 PHP 코드 예제입니다.

$url = 'https://movie.douban.com/subject/1292052/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch);
curl_close($ch);

// 使用 SimpleXML 解析 HTML 内容
$xml = simplexml_load_string($html);
$ratings = array();
$comments = array();

// 获取影评评分和评论内容
foreach ($xml->xpath('//div[@class="comment-item"]') as $comment) {
    $rating = $comment->div[2]->span[2]->text();
    $comment_content = $comment->div[2]->p->text();
    $ratings[] = (string)$rating;
    $comments[] = (string)$comment_content;
}

// 输出美化的影评信息
echo '<style>table, th, td {border: 1px solid black; border-collapse: collapse;} th, td {padding: 5px;}</style>';
echo '<table><tr><th>评分</th><th>评论内容</th></tr>';
for ($i = 0; $i < count($ratings); $i++) {
    echo '<tr><td>' . $ratings[$i] . '</td><td>' . $comments[$i] . '</td></tr>';
}
echo '</table>';
로그인 후 복사

코드에서 먼저 컬을 사용하여 Douban 영화 페이지의 HTML 콘텐츠를 얻은 다음 SimpleXML을 사용하여 HTML 콘텐츠를 작성하고 영화 리뷰의 평점을 얻습니다.

다음으로 HTML과 CSS를 사용하여 표 스타일 추가, 표 헤더 및 표 내용 설정, for 루프를 사용하여 각 영화 리뷰를 순회하고 평점과 설명을 출력하는 등 출력 내용을 아름답게 만듭니다.

위 코드를 실행하면 아름답게 꾸며진 두반 영화 리뷰 페이지의 영화 리뷰 정보가 출력됩니다.

요약하자면, 이 기사에서는 PHP를 사용하여 Douban 영화 리뷰를 크롤링하는 방법에 대한 튜토리얼을 소개합니다. 학습을 통해 독자는 PHP 및 cURL 기술을 사용하여 웹 페이지에 액세스하고 데이터를 캡처하는 방법은 물론 SimpleXML 확장을 사용하여 HTML 콘텐츠를 구문 분석하고 출력을 아름답게 만드는 방법을 배울 수 있습니다.

위 내용은 PHP를 사용하여 Douban 영화 리뷰를 크롤링하는 방법에 대한 튜토리얼의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드 Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드 Dec 24, 2024 pm 04:42 PM

PHP 8.4는 상당한 양의 기능 중단 및 제거를 통해 몇 가지 새로운 기능, 보안 개선 및 성능 개선을 제공합니다. 이 가이드에서는 Ubuntu, Debian 또는 해당 파생 제품에서 PHP 8.4를 설치하거나 PHP 8.4로 업그레이드하는 방법을 설명합니다.

CakePHP 데이터베이스 작업 CakePHP 데이터베이스 작업 Sep 10, 2024 pm 05:25 PM

CakePHP에서 데이터베이스 작업은 매우 쉽습니다. 이번 장에서는 CRUD(생성, 읽기, 업데이트, 삭제) 작업을 이해하겠습니다.

CakePHP 날짜 및 시간 CakePHP 날짜 및 시간 Sep 10, 2024 pm 05:27 PM

cakephp4에서 날짜와 시간을 다루기 위해 사용 가능한 FrozenTime 클래스를 활용하겠습니다.

CakePHP 파일 업로드 CakePHP 파일 업로드 Sep 10, 2024 pm 05:27 PM

파일 업로드 작업을 위해 양식 도우미를 사용할 것입니다. 다음은 파일 업로드의 예입니다.

CakePHP 토론 CakePHP 토론 Sep 10, 2024 pm 05:28 PM

CakePHP는 PHP용 오픈 소스 프레임워크입니다. 이는 애플리케이션을 훨씬 쉽게 개발, 배포 및 유지 관리할 수 있도록 하기 위한 것입니다. CakePHP는 강력하고 이해하기 쉬운 MVC와 유사한 아키텍처를 기반으로 합니다. 모델, 뷰 및 컨트롤러 gu

CakePHP 유효성 검사기 만들기 CakePHP 유효성 검사기 만들기 Sep 10, 2024 pm 05:26 PM

컨트롤러에 다음 두 줄을 추가하면 유효성 검사기를 만들 수 있습니다.

CakePHP 로깅 CakePHP 로깅 Sep 10, 2024 pm 05:26 PM

CakePHP에 로그인하는 것은 매우 쉬운 작업입니다. 한 가지 기능만 사용하면 됩니다. cronjob과 같은 백그라운드 프로세스에 대해 오류, 예외, 사용자 활동, 사용자가 취한 조치를 기록할 수 있습니다. CakePHP에 데이터를 기록하는 것은 쉽습니다. log() 함수는 다음과 같습니다.

PHP 개발을 위해 Visual Studio Code(VS Code)를 설정하는 방법 PHP 개발을 위해 Visual Studio Code(VS Code)를 설정하는 방법 Dec 20, 2024 am 11:31 AM

VS Code라고도 알려진 Visual Studio Code는 모든 주요 운영 체제에서 사용할 수 있는 무료 소스 코드 편집기 또는 통합 개발 환경(IDE)입니다. 다양한 프로그래밍 언어에 대한 대규모 확장 모음을 통해 VS Code는

See all articles