Scrapy는 크롤러 템플릿과 함께 제공되는 데이터 스크래핑 애플리케이션입니다.-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Scrapy는 크롤러 템플릿과 함께 제공되는 데이터 스크래핑 애플리케이션입니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2023 am 09:24 AM

비열한 데이터 스크래핑 scrapy

인터넷 기술의 지속적인 발전과 함께 크롤러 기술도 널리 사용되었습니다. 크롤러 기술은 인터넷상의 데이터를 자동으로 크롤링하여 데이터베이스에 저장할 수 있어 데이터 분석 및 데이터 마이닝의 편의성을 제공합니다. Python의 매우 유명한 크롤러 프레임워크인 Scrapy에는 대상 웹 사이트의 데이터를 빠르게 크롤링하고 로컬 또는 클라우드 데이터베이스에 자동으로 저장할 수 있는 몇 가지 일반적인 크롤러 템플릿이 함께 제공됩니다. 이 기사에서는 Scrapy의 자체 크롤러 템플릿을 사용하여 데이터를 크롤링하는 방법과 크롤링 프로세스 중에 데이터를 정리, 구문 분석 및 저장하는 방법을 소개합니다.

1. Scrapy 크롤러 템플릿 소개

Scrapy에는 기본 Spider 템플릿, CrawlSpider 템플릿 및 XmlFeedSpider 템플릿을 포함한 일부 크롤러 템플릿이 함께 제공됩니다. 스파이더 템플릿은 가장 기본적인 크롤러 템플릿으로 활용 범위가 넓고 사용이 간편하다는 장점이 있습니다. CrawlSpider 템플릿은 다중 레벨 링크를 빠르게 크롤링할 수 있고 사용자 정의 규칙을 지원하는 규칙 기반 크롤러 템플릿입니다. XmlFeedSpider 템플릿은 XML 형식에 적합한 크롤러 템플릿입니다. 데이터 크롤링에 이러한 템플릿을 사용하면 프로그래머의 개발 어려움을 크게 줄이고 크롤링 효율성을 향상시킬 수 있습니다.

2. Scrapy 크롤러 템플릿 애플리케이션

다음은 Scrapy의 자체 Spider 템플릿을 사용하여 데이터를 크롤링하는 방법을 보여주는 실제 예입니다. 우리가 크롤링할 대상 사이트는 영화정보 사이트이며, 해당 사이트의 홈페이지에는 최신 영화정보가 기재되어 있습니다. 우리는 이 웹사이트에서 영화 이름, 감독, 배우, 등급 및 기타 정보를 크롤링하여 로컬 데이터베이스에 저장해야 합니다.

Scrapy 프로젝트 만들기

먼저 명령줄 창을 열고 대상 작업 디렉터리로 전환한 후 다음 명령을 입력해야 합니다.

scrapy startproject movies

로그인 후 복사

이 명령은 영화라는 이름의 Scrapy 프로젝트를 만듭니다. 프로젝트 디렉토리에는 크롤러 프로그램을 배치하는 데 사용되는 spiders라는 하위 디렉토리가 포함됩니다.

Spider 템플릿 만들기

프로젝트 디렉터리에서 다음 명령을 사용하여 movie_spider라는 Spider를 만듭니다.

scrapy genspider movie_spider www.movies.com

로그인 후 복사

이 명령은 Spider 템플릿을 기반으로 하는 프로그램을 자동으로 생성합니다. 여기서 www.movies.com은 target 웹사이트의 도메인 이름입니다. spiders 디렉터리에 movie_spider.py라는 파일이 다음 내용과 함께 나타납니다.

import scrapy

class MovieSpider(scrapy.Spider):
    name = 'movie_spider'
    allowed_domains = ['www.movies.com']
    start_urls = ['http://www.movies.com/']

    def parse(self, response):
        pass

로그인 후 복사

이것은 가장 기본적인 Spider 프로그램입니다. 이 중 name은 크롤러의 이름을 나타내고, allowed_domains는 크롤링이 허용된 도메인 이름 목록을 나타내며, start_urls는 크롤링 시작 URL 목록을 나타냅니다. 구문 분석 메소드에서는 데이터 구문 분석 및 수집을 위한 코드를 작성해야 합니다.

데이터 캡처 및 분석

응답 개체에서 대상 웹사이트의 데이터를 캡처하고 구문 분석하는 코드를 작성해야 합니다. 방금 언급한 영화 정보 웹사이트의 경우 XPath 또는 CSS 선택기를 사용하여 페이지에서 요소를 찾을 수 있습니다. 영화 이름이 페이지의 영화 이름 클래스가 있는 div 요소에 저장되어 있다고 가정하면 다음 코드를 사용하여 모든 영화 이름을 추출할 수 있습니다.

def parse(self, response):
    movies = response.xpath('//div[@class="movie-name"]/text()').extract()
    for movie in movies:
        yield {'name': movie}

로그인 후 복사

여기에서는 XPath 구문을 사용하여 영화 이름의 모든 클래스를 찾습니다. div 요소를 삭제하고 extract 메서드를 사용하여 요소의 텍스트 콘텐츠를 추출합니다. 다음으로 for 루프를 사용하여 각 영화 이름을 생성기의 출력으로 생성합니다.

마찬가지로 XPath 또는 CSS 선택기를 통해 관심 있는 다른 요소를 찾을 수 있습니다. 예를 들어 감독과 배우 정보는 감독 클래스가 포함된 div 요소에 저장되고 등급 정보는 클래스 비율이 포함된 div 요소에 저장될 수 있습니다.

데이터 저장

Spider 프로그램에서는 캡처된 데이터를 로컬 또는 클라우드 데이터베이스에 저장하는 코드를 작성해야 합니다. Scrapy는 MySQL, PostgreSQL, MongoDB 등을 포함한 다양한 데이터베이스에 데이터를 저장하는 것을 지원합니다.

예를 들어 MySQL 데이터베이스를 사용하여 영화 정보를 저장할 수 있습니다. spiders 디렉터리에서 다음 코드를 포함하는 mysql_pipeline.py라는 파일을 생성할 수 있습니다:

import pymysql

class MysqlPipeline(object):
    def __init__(self):
        self.conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='movie_db', charset='utf8')

    def process_item(self, item, spider):
        cursor = self.conn.cursor()
        sql = "INSERT INTO movie(name, director, actors, rate) VALUES(%s, %s, %s, %s)"
        cursor.execute(sql, (item['name'], item['director'], item['actors'], item['rate']))
        self.conn.commit()

    def __del__(self):
        self.conn.close()

로그인 후 복사

이 프로그램은 구현 데이터를 MySQL 데이터베이스에 저장합니다. 여기서 movie_db는 데이터베이스 이름이고 영화 테이블에는 이름이 포함됩니다. , 감독, 배우, 등급의 4개 필드를 사용하여 영화명, 감독, 배우 및 등급 정보를 저장합니다. process_item 메소드는 Spider 프로그램에서 생성된 항목을 데이터베이스에 저장하는 데 사용됩니다.

mysql_pipeline.py 파일을 사용하려면 settings.py 파일에 다음 구성도 추가해야 합니다.

ITEM_PIPELINES = {
    'movies.spiders.mysql_pipeline.MysqlPipeline': 300
}

로그인 후 복사

여기서 'movies.spiders.mysql_pipeline.MysqlPipeline'은 mysql_pipeline의 위치와 클래스 이름을 지정합니다. .py 파일. 숫자 300은 데이터 처리 우선순위를 나타냅니다. 숫자가 작을수록 우선순위가 높습니다.

Scrapy 프로그램 실행

spiders 디렉터리에서 다음 명령을 실행하여 Scrapy 프로그램을 실행합니다.

scrapy crawl movie_spider

로그인 후 복사

이 명령은 movie_spider라는 크롤러 프로그램을 시작하여 대상 웹 사이트의 데이터를 크롤링하고 저장하기 시작합니다. MySQL 데이터베이스.

3. 요약

이 기사에서는 Spider 템플릿, CrawlSpider 템플릿 및 XmlFeedSpider 템플릿을 포함하여 Scrapy의 자체 크롤러 템플릿을 사용하여 데이터를 크롤링하는 방법을 소개합니다. Spider 템플릿을 사용하여 데이터를 캡처 및 구문 분석하고 결과를 MySQL 데이터베이스에 저장하는 방법을 설명하기 위해 실제 예를 사용합니다. 데이터 캡처에 Scrapy를 사용하면 데이터 수집의 효율성과 품질이 크게 향상되고 후속 데이터 분석, 데이터 마이닝 및 기타 작업에 대한 강력한 지원을 제공할 수 있습니다.

위 내용은 Scrapy는 크롤러 템플릿과 함께 제공되는 데이터 스크래핑 애플리케이션입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7529

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Python 크롤러를 배우는 데 시간이 얼마나 걸립니까? Oct 25, 2023 am 09:44 AM

Python 크롤러를 배우는 데 걸리는 시간은 사람마다 다르며 개인의 학습 능력, 학습 방법, 학습 시간 및 경험과 같은 요소에 따라 다릅니다. Python 크롤러를 배우는 것은 단순히 기술 자체를 배우는 것이 아니라 좋은 정보 수집 기술, 문제 해결 기술 및 팀워크 기술도 필요합니다. 지속적인 학습과 실습을 통해 점차 뛰어난 Python 크롤러 개발자로 성장하게 될 것입니다.

Ajax 기반의 Scrapy 비동기 로딩 구현 방법 Jun 22, 2023 pm 11:09 PM

Scrapy는 웹사이트에서 데이터를 빠르고 효율적으로 얻을 수 있는 오픈 소스 Python 크롤러 프레임워크입니다. 그러나 많은 웹사이트는 Ajax 비동기 로딩 기술을 사용하므로 Scrapy가 데이터를 직접 얻는 것이 불가능합니다. 이 기사에서는 Ajax 비동기 로딩을 기반으로 한 Scrapy 구현 방법을 소개합니다. 1. Ajax 비동기 로딩 원리 Ajax 비동기 로딩: 전통적인 페이지 로딩 방법에서는 브라우저가 서버에 요청을 보낸 후 서버가 응답을 반환할 때까지 기다려야 다음 단계로 진행하기 전에 전체 페이지를 로드해야 합니다.

Scrapy 사례 분석: LinkedIn에서 회사 정보를 크롤링하는 방법 Jun 23, 2023 am 10:04 AM

Scrapy는 인터넷에서 관련 정보를 빠르고 쉽게 얻을 수 있는 Python 기반 크롤러 프레임워크입니다. 이 기사에서는 Scrapy 사례를 사용하여 LinkedIn에서 회사 정보를 크롤링하는 방법을 자세히 분석합니다. 대상 URL 결정 먼저 대상이 LinkedIn의 회사 정보임을 분명히 해야 합니다. 따라서 LinkedIn 회사 정보 페이지의 URL을 찾아야 합니다. LinkedIn 웹사이트를 열고 검색창에 회사 이름을 입력한 후

Scrapy 최적화 팁: 중복 URL 크롤링을 줄이고 효율성을 높이는 방법 Jun 22, 2023 pm 01:57 PM

Scrapy는 인터넷에서 대량의 데이터를 얻는 데 사용할 수 있는 강력한 Python 크롤러 프레임워크입니다. 그러나 Scrapy를 개발할 때 중복된 URL을 크롤링하는 문제에 자주 직면하게 되는데, 이는 많은 시간과 자원을 낭비하고 효율성에 영향을 미칩니다. 이 기사에서는 중복 URL의 크롤링을 줄이고 Scrapy 크롤러의 효율성을 향상시키는 몇 가지 Scrapy 최적화 기술을 소개합니다. 1. Scrapy 크롤러의 start_urls 및 allowed_domains 속성을 사용하여

PHP 크롤러의 일반적인 문제에 대한 분석 및 솔루션 Aug 06, 2023 pm 12:57 PM

PHP 크롤러에 대한 일반적인 문제 분석 및 해결 방법 소개: 인터넷의 급속한 발전으로 인해 네트워크 데이터 수집은 다양한 분야에서 중요한 연결 고리가 되었습니다. 널리 사용되는 스크립팅 언어인 PHP는 데이터 수집에 있어 강력한 기능을 갖추고 있습니다. 일반적으로 사용되는 기술 중 하나는 크롤러입니다. 그러나 PHP 크롤러를 개발하고 사용하는 과정에서 종종 몇 가지 문제에 직면하게 됩니다. 이 기사에서는 이러한 문제에 대한 솔루션을 분석 및 제공하고 해당 코드 예제를 제공합니다. 1. 대상 웹 페이지의 데이터를 올바르게 구문 분석할 수 없는 문제에 대한 설명입니다.

Scrapy 크롤러에서 Selenium 및 PhantomJS 사용 Jun 22, 2023 pm 06:03 PM

Scrapy 크롤러에서 Selenium 및 PhantomJSScrapy 사용 Scrapy는 Python 기반의 뛰어난 웹 크롤러 프레임워크이며 다양한 분야의 데이터 수집 및 처리에 널리 사용되었습니다. 크롤러 구현 시 특정 웹사이트에서 제공하는 콘텐츠를 얻기 위해 브라우저 작업을 시뮬레이션해야 하는 경우가 있습니다. 이 경우 Selenium 및 PhantomJS가 필요합니다. Selenium은 브라우저에서 인간 작업을 시뮬레이션하여 웹 애플리케이션 테스트를 자동화할 수 있습니다.

효율적인 Java 크롤러 실습: 웹 데이터 크롤링 기술 공유 Jan 09, 2024 pm 12:29 PM

자바 크롤러 실습: 웹페이지 데이터를 효율적으로 크롤링하는 방법 소개: 인터넷의 급속한 발전으로 인해 다양한 웹페이지에는 수많은 귀중한 데이터가 저장되어 있습니다. 이 데이터를 얻으려면 각 웹 페이지에 수동으로 액세스하여 정보를 하나씩 추출해야 하는 경우가 많으며 이는 의심할 여지 없이 지루하고 시간이 많이 걸리는 작업입니다. 이 문제를 해결하기 위해 사람들은 다양한 크롤러 도구를 개발했으며 그중 Java 크롤러가 가장 일반적으로 사용되는 것 중 하나입니다. 이 기사에서는 독자들이 Java를 사용하여 효율적인 웹 크롤러를 작성하는 방법을 이해하고 특정 코드 예제를 통해 실습을 보여줄 것입니다. 1. 파충류의 기초

Scrapy의 심층적 사용: HTML, XML 및 JSON 데이터를 크롤링하는 방법은 무엇입니까? Jun 22, 2023 pm 05:58 PM

Scrapy는 인터넷에서 빠르고 유연하게 데이터를 얻는 데 도움이 되는 강력한 Python 크롤러 프레임워크입니다. 실제 크롤링 과정에서 HTML, XML, JSON 등 다양한 데이터 형식을 접하는 경우가 많습니다. 이 기사에서는 Scrapy를 사용하여 세 가지 데이터 형식을 각각 크롤링하는 방법을 소개합니다. 1. HTML 데이터를 크롤링하고 Scrapy 프로젝트를 생성합니다. 먼저 Scrapy 프로젝트를 생성해야 합니다. 명령줄을 열고 다음 명령을 입력하세요: scrapys

See all articles

Scrapy는 크롤러 템플릿과 함께 제공되는 데이터 스크래핑 애플리케이션입니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제