python使用rabbitmq实现网络爬虫示例-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

python使用rabbitmq实现网络爬虫示例

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 am 11:29 AM

rabbitmq 웹 크롤러

编写tasks.py

代码如下:

from celery import Celery
from tornado.httpclient import HTTPClient
app = Celery('tasks')
app.config_from_object('celeryconfig')
@app.task
def get_html(url):
    http_client = HTTPClient()
    try:
        response = http_client.fetch(url,follow_redirects=True)
        return response.body
    except httpclient.HTTPError as e:
        return None
    http_client.close()

编写celeryconfig.py

代码如下:

CELERY_IMPORTS = ('tasks',)
BROKER_URL = 'amqp://guest@localhost:5672//'
CELERY_RESULT_BACKEND = 'amqp://'

编写spider.py

代码如下:

from tasks import get_html
from queue import Queue
from bs4 import BeautifulSoup
from urllib.parse import urlparse,urljoin
import threading
class spider(object):
    def __init__(self):
        self.visited={}
        self.queue=Queue()
    def process_html(self, html):
        pass
        #print(html)
    def _add_links_to_queue(self,url_base,html):
        soup = BeautifulSoup(html)
        links=soup.find_all('a')
        for link in links:
            try:
                url=link['href']
            except:
                pass
            else:
                url_com=urlparse(url)
                if not url_com.netloc:
                    self.queue.put(urljoin(url_base,url))
                else:
                    self.queue.put(url_com.geturl())
    def start(self,url):
        self.queue.put(url)
        for i in range(20):
            t = threading.Thread(target=self._worker)
            t.daemon = True
            t.start()
        self.queue.join()
    def _worker(self):
        while 1:
            url=self.queue.get()
            if url in self.visited:
                continue
            else:
                result=get_html.delay(url)
                try:
                    html=result.get(timeout=5)
                except Exception as e:
                    print(url)
                    print(e)
                self.process_html(html)
                self._add_links_to_queue(url,html)

self.visited[url]=True
self.queue.task_done()
s=spider()
s.start("http://www.bitsCN.com/")

由于html中某些特殊情况的存在，程序还有待完善。

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7316

자바 튜토리얼

1625

Cakephp 튜토리얼

1349

라라벨 튜토리얼

1261

PHP 튜토리얼

1208

Related knowledge

RabbitMQ를 사용하여 PHP에서 분산 메시지 처리를 구현하는 방법 Jul 18, 2023 am 11:00 AM

RabbitMQ를 사용하여 PHP에서 분산 메시지 처리를 구현하는 방법 소개: 대규모 애플리케이션 개발에서 분산 시스템은 일반적인 요구 사항이 되었습니다. 분산 메시지 처리는 작업을 여러 처리 노드에 분산하여 시스템의 효율성과 안정성을 향상시키는 패턴입니다. RabbitMQ는 AMQP 프로토콜을 사용하여 메시지 전달 및 처리를 구현하는 신뢰할 수 있는 오픈 소스 메시지 대기열 시스템입니다. 이 기사에서는 배포를 위해 PHP에서 RabbitMQ를 사용하는 방법을 다룹니다.

React와 RabbitMQ를 사용하여 안정적인 메시징 앱을 구축하는 방법 Sep 28, 2023 pm 08:24 PM

React 및 RabbitMQ를 사용하여 안정적인 메시징 애플리케이션을 구축하는 방법 소개: 최신 애플리케이션은 실시간 업데이트 및 데이터 동기화와 같은 기능을 달성하기 위해 안정적인 메시징을 지원해야 합니다. React는 사용자 인터페이스 구축을 위한 인기 있는 JavaScript 라이브러리인 반면 RabbitMQ는 안정적인 메시징 미들웨어입니다. 이 기사에서는 React와 RabbitMQ를 결합하여 안정적인 메시징 애플리케이션을 구축하는 방법을 소개하고 구체적인 코드 예제를 제공합니다. RabbitMQ 개요:

React와 Python을 사용하여 강력한 웹 크롤러 애플리케이션을 구축하는 방법 Sep 26, 2023 pm 01:04 PM

React와 Python을 사용하여 강력한 웹 크롤러 애플리케이션을 구축하는 방법 소개: 웹 크롤러는 인터넷을 통해 웹 데이터를 크롤링하는 데 사용되는 자동화된 프로그램입니다. 인터넷의 지속적인 발전과 데이터의 폭발적인 증가로 인해 웹 크롤러는 점점 더 대중화되고 있습니다. 이 기사에서는 두 가지 널리 사용되는 기술인 React와 Python을 사용하여 강력한 웹 크롤러 애플리케이션을 구축하는 방법을 소개합니다. 프론트엔드 프레임워크인 React와 크롤러 엔진인 Python의 장점을 살펴보고 구체적인 코드 예제를 제공합니다. 1.

Golang과 RabbitMQ 간의 실시간 데이터 동기화 솔루션 Sep 27, 2023 pm 10:41 PM

Golang과 RabbitMQ 간의 실시간 데이터 동기화 솔루션 소개: 오늘날 인터넷의 대중화와 데이터 양의 폭발적인 증가로 인해 실시간 데이터 동기화가 점점 더 중요해지고 있습니다. 비동기 데이터 전송 및 데이터 동기화 문제를 해결하기 위해 많은 회사에서는 메시지 대기열을 사용하여 데이터의 실시간 동기화를 달성하기 시작했습니다. 이 글에서는 Golang과 RabbitMQ를 기반으로 한 실시간 데이터 동기화 솔루션을 소개하고 구체적인 코드 예시를 제공합니다. 1. RabbitMQ란 무엇인가요? 랍비

Golang RabbitMQ: 고가용성 메시지 대기열 시스템의 아키텍처 설계 및 구현 Sep 28, 2023 am 08:18 AM

GolangRabbitMQ: 고가용성 메시지 대기열 시스템의 아키텍처 설계 및 구현에는 특정 코드 예제가 필요합니다. 소개: 인터넷 기술의 지속적인 발전과 광범위한 응용으로 인해 메시지 대기열은 현대 소프트웨어 시스템에서 없어서는 안될 부분이 되었습니다. 분리, 비동기 통신, 내결함성 처리 및 기타 기능을 구현하는 도구로서 메시지 큐는 분산 시스템에 대한 고가용성 및 확장성 지원을 제공합니다. 효율적이고 간결한 프로그래밍 언어인 Golang은 높은 동시성 및 고성능 시스템을 구축하는 데 널리 사용됩니다.

Vue.js 및 Perl 언어를 사용하여 효율적인 웹 크롤러 및 데이터 스크래핑 도구 개발 Jul 31, 2023 pm 06:43 PM

Vue.js 및 Perl 언어를 사용하여 효율적인 웹 크롤러 및 데이터 스크래핑 도구를 개발하십시오. 최근 인터넷의 급속한 발전과 데이터의 중요성이 증가함에 따라 웹 크롤러 및 데이터 스크래핑 도구에 대한 수요도 증가했습니다. 이러한 맥락에서 Vue.js와 Perl 언어를 결합하여 효율적인 웹 크롤러와 데이터 스크래핑 도구를 개발하는 것은 좋은 선택입니다. 이 기사에서는 Vue.js 및 Perl 언어를 사용하여 이러한 도구를 개발하는 방법을 소개하고 해당 코드 예제를 첨부합니다. 1. Vue.js 및 Perl 언어 소개

PHP 연구 노트: 웹 크롤러 및 데이터 수집 Oct 08, 2023 pm 12:04 PM

PHP 연구 노트: 웹 크롤러 및 데이터 수집 소개: 웹 크롤러는 인터넷에서 자동으로 데이터를 크롤링하는 도구로, 인간의 행동을 시뮬레이션하고 웹 페이지를 탐색하며 필요한 데이터를 수집할 수 있습니다. 널리 사용되는 서버 측 스크립팅 언어인 PHP는 웹 크롤러 및 데이터 수집 분야에서도 중요한 역할을 합니다. 이 기사에서는 PHP를 사용하여 웹 크롤러를 작성하는 방법을 설명하고 실용적인 코드 예제를 제공합니다. 1. 웹 크롤러의 기본 원칙 웹 크롤러의 기본 원칙은 HTTP 요청을 보내고, 서버로부터 H 응답을 받아 구문 분석하는 것입니다.

웹 크롤러에 일반적으로 사용되는 기술은 무엇입니까? Nov 10, 2023 pm 05:44 PM

웹 크롤러에서 일반적으로 사용되는 기술로는 집중형 크롤러 기술, 링크 평가 기반 크롤링 전략, 콘텐츠 평가 기반 크롤링 전략, 집중형 크롤링 기술 등이 있습니다. 세부 소개: 1. 집중 크롤러 기술은 링크 평가 및 콘텐츠 평가 모듈을 추가하는 테마 웹 크롤러입니다. 크롤링 전략의 핵심은 페이지 콘텐츠와 링크의 중요성을 평가하는 것입니다. 2. 웹 페이지를 반구조화하여 사용합니다. 구조적 정보가 많은 문서는 링크 중요도를 평가하는 데 사용될 수 있습니다. 3. 콘텐츠 평가 등에 기반한 크롤링 전략.

See all articles

python使用rabbitmq实现网络爬虫示例

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제