Scrapy 배우기: 기초부터 고급까지-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Scrapy 배우기: 기초부터 고급까지

PHPz

Feb 19, 2024 pm 07:07 PM

시작하기 능숙한 스크랩 설치

Scrapy 배우기: 기초부터 고급까지

Scrapy 설치 튜토리얼: 입문부터 숙련까지 특정 코드 예제가 필요합니다

소개:
Scrapy는 웹 페이지 크롤링, 데이터 추출, 데이터 정리 및 지속성을 수행하는 데 사용할 수 있는 강력한 Python 오픈 소스 웹 크롤러 프레임워크입니다. 일련의 작업을 기다립니다. 이 기사에서는 Scrapy 설치 프로세스를 단계별로 안내하고 Scrapy 프레임워크를 시작하는 단계부터 능숙해지는 데 도움이 되는 특정 코드 예제를 제공합니다.

1. Scrapy 설치
Scrapy를 설치하려면 먼저 Python과 pip가 설치되어 있는지 확인하세요. 그런 다음 명령줄 터미널을 열고 다음 명령을 입력하여 설치하십시오.

pip install scrapy

로그인 후 복사

설치 프로세스에 다소 시간이 걸릴 수 있습니다. 잠시 기다려 주십시오. 권한 문제가 있는 경우 명령 앞에 sudo를 붙여보세요. sudo。

二、创建Scrapy项目
安装完成后，我们可以使用Scrapy的命令行工具创建一个新的Scrapy项目。在命令行终端中，进入您想要创建项目的目录，并执行以下命令：

scrapy startproject tutorial

로그인 후 복사

这将在当前目录下创建一个名为"tutorial"的Scrapy项目文件夹。进入该文件夹，我们可以看到如下的目录结构：

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py

로그인 후 복사

其中，scrapy.cfg是Scrapy项目的配置文件，tutorial文件夹是我们自己的代码文件夹。

三、定义爬虫
在Scrapy中，我们使用爬虫（spider）来定义抓取网页和提取数据的规则。在spiders目录下创建一个新的Python文件，命名为quotes_spider.py（可以根据实际需求自行命名），然后使用以下代码定义一个简单的爬虫：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small::text').get(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

로그인 후 복사

在上述代码中，我们创建了一个名为QuotesSpider的爬虫。其中，name属性是爬虫的名称，start_urls属性是我们希望抓取的第一个页面的URL，parse方法是爬虫默认的解析方法，用于解析网页和提取数据。

四、运行爬虫
在命令行终端中，进入项目的根目录下（即tutorial文件夹），并执行以下命令来启动爬虫并开始抓取数据：

scrapy crawl quotes

로그인 후 복사

爬虫将会开始抓取初始URL中的页面，并根据我们定义的规则进行解析和提取数据。

五、保存数据
一般情况下，我们会将抓取到的数据进行保存。在Scrapy中，我们可以使用Item Pipeline来实现数据的清洗、处理和存储。在pipelines.py文件中，添加以下代码：

import json

class TutorialPipeline:
    def open_spider(self, spider):
        self.file = open('quotes.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "
"
        self.file.write(line)
        return item

로그인 후 복사

在上述代码中，我们创建了一个名为TutorialPipeline的Item Pipeline。其中，open_spider方法在爬虫启动时会被调用，用于初始化文件；close_spider方法在爬虫结束时会被调用，用于关闭文件；process_item方法会对每个抓取到的数据项进行处理和保存。

六、配置Scrapy项目
在settings.py文件中，可以对Scrapy项目进行各种配置。以下是一些常用的配置项：

ROBOTSTXT_OBEY：是否遵守robots.txt协议；
USER_AGENT：设置用户代理，在爬虫中可以模拟不同的浏览器；
ITEM_PIPELINES：启用和配置Item Pipeline；
DOWNLOAD_DELAY

설치가 완료되면 Scrapy의 명령줄 도구를 사용하여 새로운 Scrapy 프로젝트를 생성할 수 있습니다. 명령줄 터미널에서 프로젝트를 생성하려는 디렉터리로 이동하고 다음 명령을 실행합니다.

rrreee
이렇게 하면 현재 디렉터리에 "tutorial"이라는 이름의 Scrapy 프로젝트 폴더가 생성됩니다. 폴더에 들어가면 다음과 같은 디렉터리 구조를 볼 수 있습니다:

rrreee🎜 그 중 scrapy.cfg는 Scrapy 프로젝트의 구성 파일이고, tutorial 폴더는 우리의 자신의 코드 폴더. 🎜🎜3. 크롤러 정의🎜Scrapy에서는 스파이더를 사용하여 웹 페이지를 크롤링하고 데이터를 추출하는 규칙을 정의합니다. spiders 디렉터리에 새 Python 파일을 만들고 이름을 quotes_spider.py로 지정한 후(실제 필요에 따라 이름을 지정할 수 있음) 다음 코드를 사용하여 간단한 크롤러: 🎜 rrreee🎜위 코드에서는 QuotesSpider라는 이름의 스파이더를 만들었습니다. 그 중 name 속성은 크롤러의 이름이고, start_urls 속성은 크롤링하려는 첫 번째 페이지의 URL이며, parse 속성은 code> 방법은 크롤러의 기본값입니다. 구문 분석 방법은 웹 페이지를 구문 분석하고 데이터를 추출하는 데 사용됩니다. 🎜🎜4. 크롤러 실행 🎜명령줄 터미널에서 프로젝트의 루트 디렉터리(예: tutorial 폴더)를 입력하고 다음 명령을 실행하여 크롤러를 시작하고 데이터 크롤링을 시작합니다. 크롤러는 초기 URL에서 페이지 크롤링을 시작하고 우리가 정의한 규칙에 따라 데이터를 구문 분석하고 추출합니다. 🎜🎜5. 데이터 저장🎜 일반적인 상황에서는 캡처된 데이터가 저장됩니다. Scrapy에서는 Item Pipeline을 사용하여 데이터를 정리, 처리 및 저장할 수 있습니다. pipelines.py 파일에 다음 코드를 추가합니다. 🎜rrreee🎜위 코드에서는 TutorialPipeline이라는 항목 파이프라인을 만들었습니다. 그 중 open_spider 메소드는 크롤러가 파일 초기화를 시작할 때 호출되며, close_spider 메소드는 크롤러가 파일을 닫을 때 호출됩니다. process_item 메소드는 캡처된 각 데이터 항목을 처리하고 저장합니다. 🎜🎜6. Scrapy 프로젝트 구성🎜settings.py 파일에서 Scrapy 프로젝트에 대한 다양한 구성을 구성할 수 있습니다. 다음은 일반적으로 사용되는 구성 항목입니다. 🎜

ROBOTSTXT_OBEY: robots.txt 프로토콜을 준수할지 여부 🎜
USER_AGENT: 설정 사용자 에이전트, 크롤러에서 다양한 브라우저를 시뮬레이션할 수 있습니다. 🎜
ITEM_PIPELINES: 항목 파이프라인을 활성화하고 구성합니다. 🎜
DOWNLOAD_DELAY: 다운로드 지연을 설정하여 문제를 방지합니다. 대상 웹사이트의 피해 🎜🎜🎜 7. 요약 🎜위 단계를 거쳐 Scrapy 설치 및 사용이 완료되었습니다. 이 글이 여러분이 Scrapy 프레임워크를 시작하는 것부터 능숙해지는 데 도움이 되기를 바랍니다. Scrapy의 고급 기능과 사용법을 더 자세히 알아보고 싶다면 Scrapy 공식 문서를 참조하고 실제 프로젝트를 기반으로 연습하고 탐색해 보세요. 파충류 세계에서 성공을 기원합니다! 🎜

위 내용은 Scrapy 배우기: 기초부터 고급까지의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7476

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

시간을 투자할 가치가 있는 확산 모델 튜토리얼(Purdue University 제공) Apr 07, 2024 am 09:01 AM

확산은 더 잘 모방할 수 있을 뿐만 아니라 "창조"할 수도 있습니다. 확산 모델(DiffusionModel)은 이미지 생성 모델입니다. AI 분야에서 잘 알려진 GAN, VAE 알고리즘과 비교할 때 확산 모델은 먼저 이미지에 노이즈를 추가한 다음 점차적으로 노이즈를 제거하는 프로세스를 취합니다. 원본 이미지의 노이즈를 제거하고 복원하는 방법이 알고리즘의 핵심 부분입니다. 최종 알고리즘은 임의의 잡음이 있는 이미지에서 이미지를 생성할 수 있습니다. 최근 몇 년 동안 생성 AI의 경이적인 성장으로 인해 텍스트-이미지 생성, 비디오 생성 등에서 많은 흥미로운 애플리케이션이 가능해졌습니다. 이러한 생성 도구의 기본 원리는 이전 방법의 한계를 극복하는 특수 샘플링 메커니즘인 확산의 개념입니다.

클릭 한 번으로 PPT를 생성해보세요! 키미: 'PPT 이주노동자'가 먼저 대중화되게 해주세요 Aug 01, 2024 pm 03:28 PM

키미: 단 한 문장이면 단 10초만에 PPT가 완성됩니다. PPT가 너무 짜증나네요! 회의를 하려면 PPT가 있어야 하고, 주간 보고서를 작성하려면 PPT가 있어야 하며, 누군가를 부정행위를 했다고 비난하려면 PPT를 보내야 합니다. 대학은 PPT 전공을 공부하는 것과 비슷합니다. 수업 시간에 PPT를 보고 수업 후에 PPT를 하는 거죠. 아마도 데니스 오스틴이 37년 전 PPT를 발명했을 때, 언젠가 PPT가 이렇게 널리 보급될 것이라고는 예상하지 못했을 것입니다. 우리가 PPT를 만들면서 힘들었던 경험을 이야기하면 눈물이 납니다. "20페이지가 넘는 PPT를 만드는 데 3개월이 걸렸고, 수십 번 수정했어요. PPT를 보면 토할 것 같았어요. 한창 때는 하루에 다섯 장씩 했는데, 숨소리까지 냈어요." PPT였어요." 즉석 회의가 있으면 해야죠.

CVPR 2024 시상식 전체가 발표되었습니다! 약 10,000명이 오프라인으로 컨퍼런스에 참석했으며 Google의 중국인 연구원이 최우수 논문상을 수상했습니다. Jun 20, 2024 pm 05:43 PM

베이징 시간으로 6월 20일 이른 아침, 시애틀에서 열린 최고의 국제 컴퓨터 비전 컨퍼런스인 CVPR2024가 최우수 논문 및 기타 수상작을 공식 발표했습니다. 올해는 우수논문 2편, 최우수 학생논문 2편 등 총 10편의 논문이 수상하였습니다. 컴퓨터 비전(CV) 분야 최고 학회는 매년 수많은 연구기관과 대학이 모여드는 CVPR이다. 통계에 따르면 올해 총 1만1532편의 논문이 제출돼 2719편이 채택돼 합격률 23.6%를 기록했다. Georgia Institute of Technology의 CVPR2024 데이터 통계 분석에 따르면 연구 주제 관점에서 가장 많은 논문이 이미지 및 비디오 합성 및 생성입니다(Imageandvideosyn

PyCharm Community Edition 설치 가이드: 모든 단계를 빠르게 익히세요 Jan 27, 2024 am 09:10 AM

PyCharm Community Edition 빠른 시작: 자세한 설치 튜토리얼 전체 분석 소개: PyCharm은 개발자가 Python 코드를 보다 효율적으로 작성하는 데 도움이 되는 포괄적인 도구 세트를 제공하는 강력한 Python 통합 개발 환경(IDE)입니다. 이 문서에서는 PyCharm Community Edition을 설치하는 방법을 자세히 소개하고 초보자가 빠르게 시작할 수 있도록 구체적인 코드 예제를 제공합니다. 1단계: PyCharm Community Edition 다운로드 및 설치 PyCharm을 사용하려면 먼저 공식 웹사이트에서 다운로드해야 합니다.

베어메탈부터 700억 개의 매개변수가 있는 대형 모델까지 튜토리얼과 바로 사용할 수 있는 스크립트가 있습니다. Jul 24, 2024 pm 08:13 PM

우리는 LLM이 대규모 데이터를 사용하여 대규모 컴퓨터 클러스터에서 훈련된다는 것을 알고 있습니다. 이 사이트는 LLM 훈련 프로세스를 지원하고 개선하는 데 사용되는 다양한 방법과 기술을 소개합니다. 오늘 우리가 공유하고 싶은 것은 기본 기술에 대해 심층적으로 살펴보고 운영 체제 없이도 수많은 "베어 메탈"을 LLM 교육을 위한 컴퓨터 클러스터로 전환하는 방법을 소개하는 기사입니다. 이 기사는 기계가 생각하는 방식을 이해하여 일반 지능을 달성하기 위해 노력하는 AI 스타트업 Imbue에서 가져온 것입니다. 물론 운영 체제가 없는 "베어 메탈"을 LLM 교육을 위한 컴퓨터 클러스터로 전환하는 것은 탐색과 시행착오로 가득 찬 쉬운 과정이 아니지만 Imbue는 마침내 700억 개의 매개변수를 사용하여 LLM을 성공적으로 교육했습니다. 과정이 쌓이다

C 언어 학습을 시작하기 위한 5가지 프로그래밍 소프트웨어 Feb 19, 2024 pm 04:51 PM

널리 사용되는 프로그래밍 언어인 C언어는 컴퓨터 프로그래밍에 종사하려는 사람들이 꼭 배워야 할 기본 언어 중 하나이다. 그러나 초보자의 경우 새로운 프로그래밍 언어를 배우는 것이 다소 어려울 수 있습니다. 특히 관련 학습 도구와 교육 자료가 부족하기 때문입니다. 이번 글에서는 초보자가 C 언어를 시작하고 빠르게 시작할 수 있도록 도와주는 프로그래밍 소프트웨어 5가지를 소개하겠습니다. 최초의 프로그래밍 소프트웨어는 Code::Blocks였습니다. Code::Blocks는 무료 오픈 소스 통합 개발 환경(IDE)입니다.

기술 초보자의 필독서: C언어와 Python의 난이도 분석 Mar 22, 2024 am 10:21 AM

제목: 기술 초보자가 꼭 읽어야 할 책: C언어와 Python의 난이도 분석, 구체적인 코드 예제가 필요한 오늘날의 디지털 시대에 프로그래밍 기술은 점점 더 중요한 능력이 되었습니다. 소프트웨어 개발, 데이터 분석, 인공 지능과 같은 분야에서 일하고 싶거나 관심 있는 프로그래밍을 배우고 싶다면 적합한 프로그래밍 언어를 선택하는 것이 첫 번째 단계입니다. 많은 프로그래밍 언어 중에서 C 언어와 Python은 널리 사용되는 두 가지 프로그래밍 언어이며 각각 고유한 특성을 가지고 있습니다. 이번 글에서는 C언어와 Python의 난이도를 분석해보겠습니다.

AI 활용 | AI가 혼자 사는 소녀의 생활 브이로그를 만들어 3일 만에 수만 개의 좋아요를 받았습니다. Aug 07, 2024 pm 10:53 PM

Machine Power Report 편집자: Yang Wen 대형 모델과 AIGC로 대표되는 인공지능의 물결은 우리가 살고 일하는 방식을 조용히 변화시키고 있지만 대부분의 사람들은 여전히 그것을 어떻게 사용하는지 모릅니다. 이에 직관적이고 흥미롭고 간결한 인공지능 활용 사례를 통해 AI 활용 방법을 자세히 소개하고 모두의 사고를 자극하고자 'AI in Use' 칼럼을 론칭하게 됐다. 또한 독자들이 혁신적인 실제 사용 사례를 제출하는 것을 환영합니다. 영상 링크 : https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ 최근 샤오홍슈에서는 혼자 사는 소녀의 인생 브이로그가 인기를 끌었습니다. 몇 가지 치유의 말과 함께 일러스트레이션 스타일의 애니메이션을 단 며칠 만에 쉽게 익힐 수 있습니다.

See all articles

Scrapy 배우기: 기초부터 고급까지

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제