Swoole 실습: 코루틴을 사용하여 고성능 크롤러를 구축하는 방법-Swoole-php.cn

집

PHP 프레임워크

Swoole

Swoole 실습: 코루틴을 사용하여 고성능 크롤러를 구축하는 방법

PHPz

Jun 15, 2023 pm 01:07 PM

코루틴 비열한 swoole

인터넷의 대중화로 인해 웹 크롤러는 필요한 데이터를 신속하게 크롤링하여 데이터 획득 비용을 줄이는 데 도움이 되는 매우 중요한 도구가 되었습니다. 크롤러 구현에서는 성능이 항상 중요한 고려 사항이었습니다. Swoole은 고성능 웹 크롤러를 빠르게 구축하는 데 도움이 되는 PHP 기반 코루틴 프레임워크입니다. 이 기사에서는 웹 크롤러에서 Swoole 코루틴을 적용하는 방법을 소개하고 Swoole을 사용하여 고성능 웹 크롤러를 구축하는 방법을 설명합니다.

1. Swoole 코루틴 소개

Swoole 코루틴을 소개하기 전에 먼저 코루틴의 개념을 이해해야 합니다. 코루틴은 마이크로 스레드라고도 불리는 사용자 모드 스레드로, 스레드 생성 및 소멸로 인한 오버헤드를 방지할 수 있습니다. 코루틴은 보다 가벼운 스레드로 간주될 수 있습니다. 프로세스 내에서 여러 개의 코루틴을 생성할 수 있으며 동시성 효과를 얻기 위해 언제든지 코루틴을 전환할 수 있습니다.

Swoole은 코루틴 기반 네트워크 통신 프레임워크로, PHP의 스레드 모델을 코루틴 모델로 변경하여 프로세스 간 전환 비용을 피할 수 있습니다. Swoole의 코루틴 모델에서 프로세스는 동시에 수만 개의 동시 요청을 처리할 수 있으므로 프로그램의 동시 처리 기능을 크게 향상시킬 수 있습니다.

2. 웹 크롤러에서 Swoole 코루틴 적용

웹 크롤러 구현에서는 일반적으로 동시 요청을 처리하기 위해 다중 스레드 또는 다중 프로세스가 사용됩니다. 그러나 이 방법에는 스레드나 프로세스를 생성하고 파괴하는 오버헤드가 높고, 스레드나 프로세스 간 전환으로 인해 오버헤드가 발생하며, 스레드나 프로세스 간의 통신 문제도 고려해야 하는 등 몇 가지 단점이 있습니다. Swoole 코루틴은 이러한 문제를 해결할 수 있으며, Swoole 코루틴을 사용하면 고성능 웹 크롤러를 쉽게 구현할 수 있습니다.

Swoole 코루틴을 사용하여 웹 크롤러를 구현하는 주요 프로세스는 다음과 같습니다.

크롤링된 페이지의 URL 목록을 정의합니다.
Swoole 코루틴의 http 클라이언트를 사용하여 HTTP 요청을 보내 페이지 데이터를 얻고 페이지 데이터를 구문 분석합니다.
파싱된 데이터를 처리하고 저장하며, 데이터베이스, Redis 등을 사용하여 저장할 수 있습니다.
Swoole 코루틴의 타이머 기능을 사용하여 크롤러의 실행 시간을 설정하고 시간이 초과되면 실행을 중지합니다.

구체적인 구현을 위해서는 다음 크롤러 코드를 참조하세요.

<?php

use SwooleCoroutineHttpClient;

class Spider
{
    private $urls = array();
    private $queue;
    private $maxDepth = 3; // 最大爬取深度
    private $currDepth = 0; // 当前爬取深度
    private $startTime;
    private $endTime;
    private $concurrency = 10; // 并发数
    private $httpClient;

    public function __construct($urls)
    {
        $this->urls = $urls;
        $this->queue = new SplQueue();
        $this->httpClient = new Client('127.0.0.1', 80);
    }

    public function run()
    {
        $this->startTime = microtime(true);
        foreach ($this->urls as $url) {
            $this->queue->enqueue($url);
        }
        while (!$this->queue->isEmpty() && $this->currDepth <= $this->maxDepth) {
            $this->processUrls();
            $this->currDepth++;
        }
        $this->endTime = microtime(true);
        echo "爬取完成，用时：" . ($this->endTime - $this->startTime) . "s
";
    }

    private function processUrls()
    {
        $n = min($this->concurrency, $this->queue->count());
        $array = array();
        for ($i = 0; $i < $n; $i++) {
            $url = $this->queue->dequeue();
            $array[] = $this->httpClient->get($url);
        }
        // 等待所有请求结束
        foreach ($array as $httpResponse) {
            $html = $httpResponse->body;
            $this->parseHtml($html);
        }
    }

    private function parseHtml($html)
    {
        // 解析页面
        // ...
        // 处理并存储数据
        // ...
        // 将页面中的URL添加到队列中
        // ...
    }
}

로그인 후 복사

위 코드에서는 Swoole 코루틴의 Http 클라이언트를 사용하여 HTTP 요청을 보내고, 페이지 데이터를 구문 분석하고, PHP와 함께 제공되는 DOMDocument 클래스를 사용합니다. 데이터를 처리하고 저장된 코드는 실제 비즈니스 요구에 따라 구현될 수 있습니다.

3. Swoole을 사용하여 고성능 웹 크롤러를 구축하는 방법

멀티 프로세스/멀티 스레드

멀티 프로세스/멀티 스레드를 사용하여 웹 크롤러를 구현할 때 주의해야 할 사항 프로세스/스레드 컨텍스트 전환의 오버헤드 및 스레드 간 프로세스/통신 문제. 동시에, PHP 자체의 한계로 인해 멀티 코어 CPU를 완전히 활용하지 못할 수도 있습니다.

Swoole 코루틴

Swoole 코루틴을 사용하면 고성능 웹 크롤러를 쉽게 구현할 수 있으며, 멀티 프로세스/멀티 스레딩의 일부 문제도 피할 수 있습니다.

Swoole 코루틴을 사용하여 웹 크롤러를 구현할 때 다음 사항에 주의해야 합니다.

(1) 코루틴을 사용하여 HTTP 요청을 보냅니다.

(2) 코루틴을 사용하여 페이지 데이터를 구문 분석합니다.

(3) 코루틴을 사용하여 데이터를 처리합니다.

(4) 타이머 기능을 사용하여 크롤러의 실행 시간을 설정합니다.

(5) 대기열을 사용하여 크롤링된 URL을 관리합니다.

(6) 크롤러의 효율성을 높이기 위해 동시성 수를 설정합니다.

4. 요약

이 글에서는 Swoole 코루틴을 사용하여 고성능 웹 크롤러를 구축하는 방법을 소개합니다. Swoole 코루틴을 사용하면 고성능 웹 크롤러를 쉽게 구현하는 동시에 다중 스레드/다중 프로세스와 관련된 일부 문제를 피할 수 있습니다. 실제 애플리케이션에서는 캐시나 CDN을 사용하여 크롤러의 효율성을 높이는 등 실제 비즈니스 요구에 따라 최적화를 수행할 수 있습니다.

위 내용은 Swoole 실습: 코루틴을 사용하여 고성능 크롤러를 구축하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7518

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

golang 함수와 goroutine 간의 부모-자식 관계 Apr 25, 2024 pm 12:57 PM

Go에는 함수와 고루틴 사이에 부모-자식 관계가 있습니다. 부모 고루틴은 자식 고루틴을 생성하며, 자식 고루틴은 부모 고루틴의 변수에 액세스할 수 있지만 그 반대의 경우는 불가능합니다. go 키워드를 사용하여 하위 고루틴을 생성하고, 하위 고루틴은 익명 함수 또는 명명된 함수를 통해 실행됩니다. 상위 고루틴은 모든 하위 고루틴이 완료되기 전에 프로그램이 종료되지 않도록 하기 위해 sync.WaitGroup을 통해 하위 고루틴이 완료될 때까지 기다릴 수 있습니다.

Laravel에서 Swoole 코루틴을 사용하는 방법 Apr 09, 2024 pm 06:48 PM

Laravel에서 Swoole 코루틴을 사용하면 많은 수의 요청을 동시에 처리할 수 있습니다. 장점은 다음과 같습니다. 동시 처리: 여러 요청을 동시에 처리할 수 있습니다. 고성능: Linux epoll 이벤트 메커니즘을 기반으로 요청을 효율적으로 처리합니다. 낮은 리소스 소비: 더 적은 서버 리소스가 필요합니다. 간편한 통합: Laravel 프레임워크와 원활하게 통합되어 사용이 간편합니다.

스울과 워커맨 중 어느 것이 더 낫나요? Apr 09, 2024 pm 07:00 PM

Swoole과 Workerman은 모두 고성능 PHP 서버 프레임워크입니다. 비동기 처리, 우수한 성능 및 확장성으로 잘 알려진 Swoole은 많은 수의 동시 요청과 높은 처리량을 처리해야 하는 프로젝트에 적합합니다. Workerman은 사용 편의성과 낮은 동시성 볼륨을 처리하는 프로젝트에 더 적합한 직관적인 API를 통해 비동기식 및 동기식 모드의 유연성을 제공합니다.

Golang API 디자인에 동시성 및 코루틴 적용 May 07, 2024 pm 06:51 PM

동시성과 코루틴은 GoAPI 설계에서 다음을 위해 사용됩니다. 고성능 처리: 성능 향상을 위해 여러 요청을 동시에 처리합니다. 비동기 처리: 코루틴을 사용하여 작업(예: 이메일 보내기)을 비동기적으로 처리하고 메인 스레드를 해제합니다. 스트림 처리: 코루틴을 사용하여 데이터 스트림(예: 데이터베이스 읽기)을 효율적으로 처리합니다.

swoole_process를 사용하면 사용자가 어떻게 전환할 수 있나요? Apr 09, 2024 pm 06:21 PM

Swoole 프로세스를 통해 사용자는 프로세스를 생성하고 프로세스를 시작할 수 있습니다.

Swoole 프레임워크에서 서비스를 다시 시작하는 방법 Apr 09, 2024 pm 06:15 PM

Swoole 서비스를 다시 시작하려면 다음 단계를 따르십시오. 서비스 상태를 확인하고 PID를 가져옵니다. 서비스를 중지하려면 "kill -15 PID"를 사용하십시오. 서비스를 시작하는 데 사용한 것과 동일한 명령을 사용하여 서비스를 다시 시작합니다.

Swoole 또는 Java 중 어느 것이 더 나은 성능을 가지고 있습니까? Apr 09, 2024 pm 07:03 PM

성능 비교: 처리량: Swoole은 코루틴 메커니즘 덕분에 처리량이 더 높습니다. 대기 시간: Swoole의 코루틴 컨텍스트 전환은 오버헤드가 낮고 대기 시간이 더 짧습니다. 메모리 소비: Swoole의 코루틴은 더 적은 메모리를 차지합니다. 사용 용이성: Swoole은 사용하기 쉬운 동시 프로그래밍 API를 제공합니다.

Golang 코루틴과 고루틴의 관계 Apr 15, 2024 am 10:42 AM

코루틴은 작업을 동시에 실행하기 위한 추상적인 개념이고, 고루틴은 코루틴의 개념을 구현한 Go 언어의 경량 스레드 함수입니다. 둘은 밀접하게 관련되어 있지만 고루틴 리소스 소비가 적고 Go 스케줄러에 의해 관리됩니다. 고루틴은 웹 요청을 동시에 처리하고 프로그램 성능을 향상시키는 등 실제 전투에서 널리 사용됩니다.

See all articles