想要用 python 做爬虫，是使用 scrapy框架还是用 requests, bs4 等库？-파이썬 튜토리얼-php.cn

回复内容：

집

백엔드 개발

파이썬 튜토리얼

想要用 python 做爬虫，是使用 scrapy框架还是用 requests, bs4 等库？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 04:23 PM

python python3 requests scrapy

想要用python（python3）实现一个爬虫，来完成自己的一些需求。
参考网上的资料，发现对自己而言有两种待选的方案：
1. 使用scrapy框架
都说该框架功能强大，实现简单。但是不兼容python3,
2. 使用requests 和 bs4等库来自己实现
相比方案一，可能要自己多写好多代码，以及性能可能不如开源的框架。

由于自己学习的python3（好多人说python3 才是趋势，所以没有学习python2），如果采用方案一，会有scrapy对python3 的支持不够好（虽说现在scrapy官网上说对python3的支持正在进行中，但不相等），希望熟悉的人回答一下 scrapy对python3的支持到底如何？；如果采用方案二，那么想问，如果我想要利用 requests， bs4等库实现一个简单版的 scrapy，困难有多大，需要学习那些东西？

回复内容：

真的不要纠结2还是3，对于爬虫来讲，感觉不到区别，这些都不是事儿，除了编码和print。
而且requests和bs4都支持吧（待我确定下）。

那什么是事儿呢？
1 限制ip
用requests代理，买代理，或者网上免费代理
2 伪装成浏览器
requests切换user agent
3 先登录，保存cookies
requests用session先post拿到cookies，再爬
4 URL参数太多，不明白什么意思
webdriver和phantomjs
5 JavaScript和ajax问题
浏览器f12分析请求规律，直接requests请求。或者用webdriver和phantomjs，如果用scrapy的话，用scrapyjs
6 爬的太慢
多线程，别说gil，一般是网络io慢，cpu等io
7 还是慢
scrapy异步（做过几个项目了，挺好用的），pyspider（这个支持Python3）
8 还是慢
分布式（暂时还没涉及），redis，scrapyd
9 验证码
对不起，帮不了你。简单的可以pil，灰度二值化切割识别
10 如果你想自己实现异步请求的话
grequests不错

爪机回复，待补充。
ps 不知不觉自己用Python有一段时间了，写过爬虫，web，最近用Python挣了点钱前几天刚刚用几个库自己写了一个简单的爬虫，不过因为我是用的Python2.7，所以可能有些不同，先说说我的体验

2个多月前学习了Scrapy框架，之后自己写了几个爬虫，基本是BaseSpider，CrawlSpider，当时感觉写一个爬虫很简单，有一个现成的框架摆在那里，只要自己定义要抓取的类和抓取的函数就行了

之后由于其他事情Python学习断了一个多月，之后看《Python核心编程》，讲到爬虫，就想到为什么不自己写一个，于是开始做。

这时候才体会到写爬虫并不像自己想的那么简单，得自己定义诸如存储数据类，同域名保留函数，数据去重等一系列问题，最后用两种方案写出来，一个是定义一个类，一个是只用函数，不过二者基本上是类似的，当然还有一系列问题没有解决，目前的功能是根据输入的网址和爬取深度来爬取网址，不过基本雏形出来了，以后慢慢解决

个人建议先学习Scrapy，我能感受到的最大的好处就是学习了正则，以至于后来自己写爬虫提取网址直接用正则了，其他的什么库都没有用

学完Scrapy后，试着自己写一个爬虫，因为这时候你对爬虫的基本操作流程已经有所掌握，照猫画虎还不会么，安题主所说，用request和bs4库是肯定不够的，不过不要急着学库，到时候需要了再去查(我个人是喜欢用正则，所以我自己写的爬虫只是用了re，当然不可否认上面两个也很强大，个人喜好而已)写的过程肯定会遇到问题，比如数据存放，去重，抓取，一个一个解决，对提升自己绝对有好处

看着自己写的爬虫跑网页，也是很有成就感的不要纠结python2 还是python3 的问题。
学习编程不光是学习语法，是学习计算思维，编程思路。python2和python3 差别不是很大。

看你的情况，建议先学习标准库或requests 这个库学习爬虫，先学会抓包，模拟post、get ，自动填表等基本技能，再学习scrapy框架。

建议看看黄哥主讲的python爬虫联想词视频，学习一下基础知识。

搜索“python爬虫联想词视频” 有播放地址。

加油！先去试试urllib和urllib2，熟悉一下爬虫的基本思维。然后熟悉了大概之后看看requests，这也是urllib\urllib2封装的，熟悉抓包和分析页面成分，了解POST、GET都是什么原理和实用，试着自己去写几个小站的爬虫，当你不满足于此的时候可以去撸Scrapy了，但是入坑之前推荐楼主先去了解Python的多线程处理，目前我正在死磕中。。看你使用场景。
如果你的爬虫是玩玩，练练手。或者是对某一站点请求并发量不大的时候，可以用scrapy。
如果你的爬虫对某一站点请求很频繁，量很大时，我倾向于使用requests bs re。

爬虫的业务逻辑很简单。重点是反爬！反爬！反爬！

scrapy优势在于抽象了业务，让你通过配置你需要的数据格式，帮你快速获取结果。这在请求量很小的时候还算方便，但当请求量一大起来，必然会遇到反爬机制各种封你，对于反爬scrapy没提供特别有效的处理机制。

另外往往获取有效数据的操作，用BeautifulSoup+re就搞定了，而为了使用scrapy不得不配置的一堆东西反倒显得繁琐了。
既然所有反爬的处理都需要自己弄，这样看来scrapy的优势其实已经很小了，所以我建议requests bs re做。 requests和bs4库还是相当强大的，简单写个几十行，再配上代理和多进程/多线程，就能抓取相当可观的数据。题主如果想入门这两个库可以在网易云课堂上搜一个有关python爬虫的课程，具体名字忘了，但是个人认为讲的还不错。另外就是善用文档，一切说明都在文档里，百度一搜就有。

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7651

Cakephp 튜토리얼

1392

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 미니 크로스 워드 답변

110

Related knowledge

PHP와 Python : 다른 패러다임이 설명되었습니다 Apr 18, 2025 am 12:26 AM

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP와 Python 중에서 선택 : 가이드 Apr 18, 2025 am 12:24 AM

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

Python에서 비주얼 스튜디오 코드를 사용할 수 있습니다 Apr 15, 2025 pm 08:18 PM

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

Windows 8에서 코드를 실행할 수 있습니다 Apr 15, 2025 pm 07:24 PM

VS 코드는 Windows 8에서 실행될 수 있지만 경험은 크지 않을 수 있습니다. 먼저 시스템이 최신 패치로 업데이트되었는지 확인한 다음 시스템 아키텍처와 일치하는 VS 코드 설치 패키지를 다운로드하여 프롬프트대로 설치하십시오. 설치 후 일부 확장은 Windows 8과 호환되지 않을 수 있으며 대체 확장을 찾거나 가상 시스템에서 새로운 Windows 시스템을 사용해야합니다. 필요한 연장을 설치하여 제대로 작동하는지 확인하십시오. Windows 8에서는 VS 코드가 가능하지만 더 나은 개발 경험과 보안을 위해 새로운 Windows 시스템으로 업그레이드하는 것이 좋습니다.

VScode 확장자가 악의적입니까? Apr 15, 2025 pm 07:57 PM

VS 코드 확장은 악의적 인 코드 숨기기, 취약성 악용 및 합법적 인 확장으로 자위하는 등 악성 위험을 초래합니다. 악의적 인 확장을 식별하는 방법에는 게시자 확인, 주석 읽기, 코드 확인 및주의해서 설치가 포함됩니다. 보안 조치에는 보안 인식, 좋은 습관, 정기적 인 업데이트 및 바이러스 백신 소프트웨어도 포함됩니다.

Python vs. JavaScript : 학습 곡선 및 사용 편의성 Apr 16, 2025 am 12:12 AM

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

PHP와 Python : 그들의 역사에 깊은 다이빙 Apr 18, 2025 am 12:25 AM

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

터미널 VSCODE에서 프로그램을 실행하는 방법 Apr 15, 2025 pm 06:42 PM

vs 코드에서는 다음 단계를 통해 터미널에서 프로그램을 실행할 수 있습니다. 코드를 준비하고 통합 터미널을 열어 코드 디렉토리가 터미널 작업 디렉토리와 일치하는지 확인하십시오. 프로그래밍 언어 (예 : Python의 Python Your_file_name.py)에 따라 실행 명령을 선택하여 성공적으로 실행되는지 여부를 확인하고 오류를 해결하십시오. 디버거를 사용하여 디버깅 효율을 향상시킵니다.

See all articles

想要用 python 做爬虫， 是使用 scrapy框架还是用 requests, bs4 等库？

回复内容：

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제

想要用 python 做爬虫，是使用 scrapy框架还是用 requests, bs4 等库？