Python 멀티 스레드 크롤러는 영화 천국 리소스를 크롤링합니다.-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python 멀티 스레드 크롤러는 영화 천국 리소스를 크롤링합니다.

高洛峰

Feb 24, 2017 pm 03:58 PM

最近花些时间学习了一下Python，并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址，代码已经上传到GitHub上了，需要的同学可以自行下载。刚开始学习python希望可以获得宝贵的意见。

　　先来简单介绍一下，网络爬虫的基本实现原理吧。一个爬虫首先要给它一个起点，所以需要精心选取一些URL作为起点，然后我们的爬虫从这些起点出发，抓取并解析所抓取到的页面，将所需要的信息提取出来，同时获得的新的URL插入到队列中作为下一次爬取的起点。这样不断地循环，一直到获得你想得到的所有的信息爬虫的任务就算结束了。我们通过一张图片来看一下。

Python 멀티 스레드 크롤러는 영화 천국 리소스를 크롤링합니다.

　　好的下面进入正题，来讲解下程序的实现。

　　首先要分析一下电影天堂网站的首页结构。

Python 멀티 스레드 크롤러는 영화 천국 리소스를 크롤링합니다.

　　从上面的菜单栏中我们可以看到整个网站资源的总体分类情况。刚刚好我们可以利用到它的这个分类，将每一个分类地址作为爬虫的起点。

　　①解析首页地址提取分类信息

#解析首页
def CrawIndexPage(starturl):
print "正在爬取首页"
page = __getpage(starturl)
if page=="error":
return
page = page.decode(&#39;gbk&#39;, &#39;ignore&#39;)
tree = etree.HTML(page)
Nodes = tree.xpath("//p[@id=&#39;menu&#39;]//a")
print "首页解析出地址",len(Nodes),"条"
for node in Nodes:
CrawledURLs = []
CrawledURLs.append(starturl)
url=node.xpath("@href")[0]
if re.match(r&#39;/html/[A-Za-z0-9_/]+/index.html&#39;, url):
if __isexit(host + url,CrawledURLs):
pass
else:
try:
catalog = node.xpath("text()")[0].encode("utf-8")
newdir = "E:/电影资源/" + catalog
os.makedirs(newdir.decode("utf-8"))
print "创建分类目录成功------"+newdir
thread = myThread(host + url, newdir,CrawledURLs)
thread.start()
except:
pass

로그인 후 복사

在这个函数中，首先将网页的源码下载下来，通过XPath解析出其中的菜单分类信息。并创建相应的文件目录。有一个需要注意的地方就是编码问题，但是也是被这个编码纠缠了好久，通过查看网页的源代码，我们可以发现，网页的编码采用的是GB2312，这里通过XPath构造Tree对象是需要对文本信息进行解码操作，将gb2312变成Unicode编码，这样DOM树结构才是正确的，要不然在后面解析的时候就会出现问题。

　　②解析每个分类的主页

# 解析分类文件
def CrawListPage(indexurl,filedir,CrawledURLs):
print "正在解析分类主页资源"
print indexurl
page = __getpage(indexurl)
if page=="error":
return
CrawledURLs.append(indexurl)
page = page.decode(&#39;gbk&#39;, &#39;ignore&#39;)
tree = etree.HTML(page)
Nodes = tree.xpath("//p[@class=&#39;co_content8&#39;]//a")
for node in Nodes:
url=node.xpath("@href")[0]
if re.match(r&#39;/&#39;, url):
# 非分页地址 可以从中解析出视频资源地址
if __isexit(host + url,CrawledURLs):
pass
else:
#文件命名是不能出现以下特殊符号
filename=node.xpath("text()")[0].encode("utf-8").replace("/"," ")\
.replace("\\"," ")\
.replace(":"," ")\
.replace("*"," ")\
.replace("?"," ")\
.replace("\""," ")\
.replace("<", " ") \
.replace(">", " ")\
.replace("|", " ")
CrawlSourcePage(host + url,filedir,filename,CrawledURLs)
pass
else:
# 分页地址 从中嵌套再次解析
print "分页地址 从中嵌套再次解析",url
index = indexurl.rfind("/")
baseurl = indexurl[0:index + 1]
pageurl = baseurl + url
if __isexit(pageurl,CrawledURLs):
pass
else:
print "分页地址 从中嵌套再次解析", pageurl
CrawListPage(pageurl,filedir,CrawledURLs)
pass
pass

로그인 후 복사

打开每一个分类的首页会发现都有一个相同的结构（点击打开示例）首先解析出包含资源URL的节点，然后将名称和URL提取出来。这一部分有两个需要注意的地方。一是因为最终想要把资源保存到一个txt文件中，但是在命名时不能出现一些特殊符号，所以需要处理掉。二是一定要对分页进行处理，网站中的数据都是通过分页这种形式展示的，所以如何识别并抓取分页也是很重要的。通过观察发现，分页的地址前面没有“/”,所以只需要通过正则表达式找出分页地址链接，然后嵌套调用即可解决分页问题。

③解析资源地址保存到文件中

#处理资源页面 爬取资源地址
def CrawlSourcePage(url,filedir,filename,CrawledURLs):
print url
page = __getpage(url)
if page=="error":
return
CrawledURLs.append(url)
page = page.decode(&#39;gbk&#39;, &#39;ignore&#39;)
tree = etree.HTML(page)
Nodes = tree.xpath("//p[@align=&#39;left&#39;]//table//a")
try:
source = filedir + "/" + filename + ".txt"
f = open(source.decode("utf-8"), &#39;w&#39;)
for node in Nodes:
sourceurl = node.xpath("text()")[0]
f.write(sourceurl.encode("utf-8")+"\n")
f.close()
except:
print "!!!!!!!!!!!!!!!!!"

로그인 후 복사

这段就比较简单了，将提取出来的内容写到一个文件中就行了

　　为了能够提高程序的运行效率，使用了多线程进行抓取，在这里我是为每一个分类的主页都开辟了一个线程，这样极大地加快了爬虫的效率。想当初，只是用单线程去跑，结果等了一下午最后因为一个异常没处理到结果一下午都白跑了！！！！心累

class myThread (threading.Thread): #继承父类threading.Thread
def __init__(self, url, newdir,CrawledURLs):
threading.Thread.__init__(self)
self.url = url
self.newdir = newdir
self.CrawledURLs=CrawledURLs
def run(self): #把要执行的代码写到run函数里面 线程在创建后会直接运行run函数
CrawListPage(self.url, self.newdir,self.CrawledURLs)

로그인 후 복사

以上只是部分代码，全部代码可以到GitHub上面去下载（点我跳转）

最后爬取的结果如下。

Python 멀티 스레드 크롤러는 영화 천국 리소스를 크롤링합니다.

以上所述是小编给大家介绍的使用Python 멀티 스레드 크롤러는 영화 천국 리소스를 크롤링합니다. ，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对PHP中文网的支持！

更多Python 멀티 스레드 크롤러는 영화 천국 리소스를 크롤링합니다.相关文章请关注PHP中文网！

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7508

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Linux 터미널에서 Python 버전을 볼 때 발생하는 권한 문제를 해결하는 방법은 무엇입니까? Apr 01, 2025 pm 05:09 PM

Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

한 데이터 프레임의 전체 열을 Python의 다른 구조를 가진 다른 데이터 프레임에 효율적으로 복사하는 방법은 무엇입니까? Apr 01, 2025 pm 11:15 PM

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

정규 표현이란 무엇입니까? Mar 20, 2025 pm 06:25 PM

정규 표현식은 프로그래밍의 패턴 일치 및 텍스트 조작을위한 강력한 도구이며 다양한 응용 프로그램에서 텍스트 처리의 효율성을 높입니다.

Uvicorn은 Serving_forever ()없이 HTTP 요청을 어떻게 지속적으로 듣습니까? Apr 01, 2025 pm 10:51 PM

Uvicorn은 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 ASGI를 기반으로 한 가벼운 웹 서버입니다. 핵심 기능 중 하나는 HTTP 요청을 듣고 진행하는 것입니다 ...

문자열을 통해 객체를 동적으로 생성하고 방법을 파이썬으로 호출하는 방법은 무엇입니까? Apr 01, 2025 pm 11:18 PM

파이썬에서 문자열을 통해 객체를 동적으로 생성하고 메소드를 호출하는 방법은 무엇입니까? 특히 구성 또는 실행 해야하는 경우 일반적인 프로그래밍 요구 사항입니다.

인기있는 파이썬 라이브러리와 그 용도는 무엇입니까? Mar 21, 2025 pm 06:46 PM

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

See all articles

Python 멀티 스레드 크롤러는 영화 천국 리소스를 크롤링합니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제