PHP와 Selenium을 사용하여 자동으로 데이터를 수집하고 크롤러 크롤링을 구현합니다.-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

PHP와 Selenium을 사용하여 자동으로 데이터를 수집하고 크롤러 크롤링을 구현합니다.

PHPz

Jun 16, 2023 am 08:34 AM

php 비열한 selenium

인터넷 시대가 도래하면서 인터넷에서 데이터를 캡처하는 것이 점점 더 중요한 작업이 되었습니다. 웹 프런트엔드 개발 분야에서는 효율성을 높이기 위해 일련의 대화형 작업을 완료하기 위해 페이지에서 데이터를 가져와야 하는 경우가 많습니다.

이 글에서는 자동화된 데이터 수집 및 크롤러 크롤링을 위해 PHP와 Selenium을 사용하는 방법을 소개합니다.

1. Selenium이란 무엇입니까

Selenium은 주로 웹 애플리케이션의 자동화된 테스트에 사용되는 무료 오픈 소스 자동화 테스트 도구로, 실제 사용자 동작을 시뮬레이션하고 자동 상호 작용을 달성할 수 있습니다. Selenium을 사용하여 클릭, 입력 등과 같은 브라우저 작업을 자동화합니다.

2. Selenium 설치

Selenium은 Python 환경의 라이브러리입니다. 먼저 Selenium을 설치해야 합니다.

pip install selenium

로그인 후 복사

다음으로 Chrome을 예로 들어보겠습니다. 드라이버 다운로드 주소는 http://chromedriver.chromium.org/downloads입니다. 다운로드하여 디렉터리에 압축을 푼 다음 해당 디렉터리를 시스템 환경 변수에 추가하세요.

3. Selenium을 사용하여 페이지 데이터 얻기

Selenium 설치를 완료한 후 PHP를 사용하여 페이지 데이터를 자동으로 얻는 프로그램을 작성할 수 있습니다.

다음은 자동으로 Chrome 브라우저를 열고, 대상 URL에 접속하고, 페이지가 로드되기를 기다리고, 대상 데이터를 얻어서 콘솔에 출력하는 간단한 샘플 코드입니다.

<?php

require_once('vendor/autoload.php'); // 引入Selenium的PHP库

use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;

$host = 'http://localhost:9515'; // Chrome浏览器驱动程序地址
$capabilities = DesiredCapabilities::chrome();
$options = new FacebookWebDriverChromeChromeOptions();
$options->addArguments(['--headless']); // 启动无界面模式
$capabilities->setCapability(FacebookWebDriverChromeChromeOptions::CAPABILITY, $options);

$driver = RemoteWebDriver::create($host, $capabilities);

$driver->get('http://www.example.com'); // 要爬的页面地址

$driver->wait(5)->until(
    FacebookWebDriverWebDriverExpectedCondition::visibilityOfElementLocated(
        FacebookWebDriverWebDriverBy::tagName('h1')
    )
); // 等待页面加载完成

$title = $driver->findElement(FacebookWebDriverWebDriverBy::tagName('h1'))->getText(); // 获取页面上的标题

echo $title; // 输出页面标题

$driver->quit(); // 退出浏览器驱动程序

로그인 후 복사

위 샘플 코드에서, Chrome이 사용됩니다. 브라우저는 크롤러 도구 역할을 하며 '--headless' 매개변수를 통해 헤드리스 모드를 활성화합니다. 페이지에 액세스한 후 프로그램은 명시적 대기를 사용하여 페이지가 로드될 때까지 기다리고 페이지의 제목 데이터를 얻습니다.

4. 크롤링 방지 메커니즘을 처리하는 방법은 무엇입니까?

크롤러를 통해 웹사이트의 데이터를 크롤링하려고 할 때 인증 코드, 사용자 에이전트 감지 등과 같은 크롤링 방지 메커니즘을 자주 접하게 됩니다. 이때 다음과 같은 방법으로 처리할 수 있습니다.

Disguise User-Agent

User-Agent를 일반적인 User-Agent와 같은 브라우저의 User-Agent로 설정합니다.

Mozilla/5.0 (Windows NT 6.1; WOW64; rv:57.0) Gecko/20100101 Firefox/57.0
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299

로그인 후 복사