인터넷 기술의 지속적인 발전과 함께 크롤러 기술도 널리 사용되었습니다. 크롤러 기술은 인터넷상의 데이터를 자동으로 크롤링하여 데이터베이스에 저장할 수 있어 데이터 분석 및 데이터 마이닝의 편의성을 제공합니다. Python의 매우 유명한 크롤러 프레임워크인 Scrapy에는 대상 웹 사이트의 데이터를 빠르게 크롤링하고 로컬 또는 클라우드 데이터베이스에 자동으로 저장할 수 있는 몇 가지 일반적인 크롤러 템플릿이 함께 제공됩니다. 이 기사에서는 Scrapy의 자체 크롤러 템플릿을 사용하여 데이터를 크롤링하는 방법과 크롤링 프로세스 중에 데이터를 정리, 구문 분석 및 저장하는 방법을 소개합니다.
1. Scrapy 크롤러 템플릿 소개
Scrapy에는 기본 Spider 템플릿, CrawlSpider 템플릿 및 XmlFeedSpider 템플릿을 포함한 일부 크롤러 템플릿이 함께 제공됩니다. 스파이더 템플릿은 가장 기본적인 크롤러 템플릿으로 활용 범위가 넓고 사용이 간편하다는 장점이 있습니다. CrawlSpider 템플릿은 다중 레벨 링크를 빠르게 크롤링할 수 있고 사용자 정의 규칙을 지원하는 규칙 기반 크롤러 템플릿입니다. XmlFeedSpider 템플릿은 XML 형식에 적합한 크롤러 템플릿입니다. 데이터 크롤링에 이러한 템플릿을 사용하면 프로그래머의 개발 어려움을 크게 줄이고 크롤링 효율성을 향상시킬 수 있습니다.
2. Scrapy 크롤러 템플릿 애플리케이션
다음은 Scrapy의 자체 Spider 템플릿을 사용하여 데이터를 크롤링하는 방법을 보여주는 실제 예입니다. 우리가 크롤링할 대상 사이트는 영화정보 사이트이며, 해당 사이트의 홈페이지에는 최신 영화정보가 기재되어 있습니다. 우리는 이 웹사이트에서 영화 이름, 감독, 배우, 등급 및 기타 정보를 크롤링하여 로컬 데이터베이스에 저장해야 합니다.
먼저 명령줄 창을 열고 대상 작업 디렉터리로 전환한 후 다음 명령을 입력해야 합니다.
scrapy startproject movies
이 명령은 영화라는 이름의 Scrapy 프로젝트를 만듭니다. 프로젝트 디렉토리에는 크롤러 프로그램을 배치하는 데 사용되는 spiders라는 하위 디렉토리가 포함됩니다.
프로젝트 디렉터리에서 다음 명령을 사용하여 movie_spider라는 Spider를 만듭니다.
scrapy genspider movie_spider www.movies.com
이 명령은 Spider 템플릿을 기반으로 하는 프로그램을 자동으로 생성합니다. 여기서 www.movies.com은 target 웹사이트의 도메인 이름입니다. spiders 디렉터리에 movie_spider.py라는 파일이 다음 내용과 함께 나타납니다.
import scrapy class MovieSpider(scrapy.Spider): name = 'movie_spider' allowed_domains = ['www.movies.com'] start_urls = ['http://www.movies.com/'] def parse(self, response): pass
이것은 가장 기본적인 Spider 프로그램입니다. 이 중 name은 크롤러의 이름을 나타내고, allowed_domains는 크롤링이 허용된 도메인 이름 목록을 나타내며, start_urls는 크롤링 시작 URL 목록을 나타냅니다. 구문 분석 메소드에서는 데이터 구문 분석 및 수집을 위한 코드를 작성해야 합니다.
응답 개체에서 대상 웹사이트의 데이터를 캡처하고 구문 분석하는 코드를 작성해야 합니다. 방금 언급한 영화 정보 웹사이트의 경우 XPath 또는 CSS 선택기를 사용하여 페이지에서 요소를 찾을 수 있습니다. 영화 이름이 페이지의 영화 이름 클래스가 있는 div 요소에 저장되어 있다고 가정하면 다음 코드를 사용하여 모든 영화 이름을 추출할 수 있습니다.
def parse(self, response): movies = response.xpath('//div[@class="movie-name"]/text()').extract() for movie in movies: yield {'name': movie}
여기에서는 XPath 구문을 사용하여 영화 이름의 모든 클래스를 찾습니다. div 요소를 삭제하고 extract 메서드를 사용하여 요소의 텍스트 콘텐츠를 추출합니다. 다음으로 for 루프를 사용하여 각 영화 이름을 생성기의 출력으로 생성합니다.
마찬가지로 XPath 또는 CSS 선택기를 통해 관심 있는 다른 요소를 찾을 수 있습니다. 예를 들어 감독과 배우 정보는 감독 클래스가 포함된 div 요소에 저장되고 등급 정보는 클래스 비율이 포함된 div 요소에 저장될 수 있습니다.
Spider 프로그램에서는 캡처된 데이터를 로컬 또는 클라우드 데이터베이스에 저장하는 코드를 작성해야 합니다. Scrapy는 MySQL, PostgreSQL, MongoDB 등을 포함한 다양한 데이터베이스에 데이터를 저장하는 것을 지원합니다.
예를 들어 MySQL 데이터베이스를 사용하여 영화 정보를 저장할 수 있습니다. spiders 디렉터리에서 다음 코드를 포함하는 mysql_pipeline.py라는 파일을 생성할 수 있습니다:
import pymysql class MysqlPipeline(object): def __init__(self): self.conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='movie_db', charset='utf8') def process_item(self, item, spider): cursor = self.conn.cursor() sql = "INSERT INTO movie(name, director, actors, rate) VALUES(%s, %s, %s, %s)" cursor.execute(sql, (item['name'], item['director'], item['actors'], item['rate'])) self.conn.commit() def __del__(self): self.conn.close()
이 프로그램은 구현 데이터를 MySQL 데이터베이스에 저장합니다. 여기서 movie_db는 데이터베이스 이름이고 영화 테이블에는 이름이 포함됩니다. , 감독, 배우, 등급의 4개 필드를 사용하여 영화명, 감독, 배우 및 등급 정보를 저장합니다. process_item 메소드는 Spider 프로그램에서 생성된 항목을 데이터베이스에 저장하는 데 사용됩니다.
mysql_pipeline.py 파일을 사용하려면 settings.py 파일에 다음 구성도 추가해야 합니다.
ITEM_PIPELINES = { 'movies.spiders.mysql_pipeline.MysqlPipeline': 300 }
여기서 'movies.spiders.mysql_pipeline.MysqlPipeline'은 mysql_pipeline의 위치와 클래스 이름을 지정합니다. .py 파일. 숫자 300은 데이터 처리 우선순위를 나타냅니다. 숫자가 작을수록 우선순위가 높습니다.
spiders 디렉터리에서 다음 명령을 실행하여 Scrapy 프로그램을 실행합니다.
scrapy crawl movie_spider
이 명령은 movie_spider라는 크롤러 프로그램을 시작하여 대상 웹 사이트의 데이터를 크롤링하고 저장하기 시작합니다. MySQL 데이터베이스.
3. 요약
이 기사에서는 Spider 템플릿, CrawlSpider 템플릿 및 XmlFeedSpider 템플릿을 포함하여 Scrapy의 자체 크롤러 템플릿을 사용하여 데이터를 크롤링하는 방법을 소개합니다. Spider 템플릿을 사용하여 데이터를 캡처 및 구문 분석하고 결과를 MySQL 데이터베이스에 저장하는 방법을 설명하기 위해 실제 예를 사용합니다. 데이터 캡처에 Scrapy를 사용하면 데이터 수집의 효율성과 품질이 크게 향상되고 후속 데이터 분석, 데이터 마이닝 및 기타 작업에 대한 강력한 지원을 제공할 수 있습니다.
위 내용은 Scrapy는 크롤러 템플릿과 함께 제공되는 데이터 스크래핑 애플리케이션입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!