python实现批量下载新浪博客的方法
本文实例讲述了python实现批量下载新浪博客的方法。分享给大家供大家参考。具体实现方法如下:
# coding=utf-8 import urllib2 import sys, os import re import string from BeautifulSoup import BeautifulSoup def encode(s): return s.decode('utf-8').encode(sys.stdout.encoding, 'ignore') def getHTML(url): #proxy_handler = urllib2.ProxyHandler({'http':'http://211.138.124.211:80'}) #opener = urllib2.build_opener(proxy_handler) #urllib2.install_opener(opener) req = urllib2.Request(url) response = urllib2.urlopen(req, timeout=15) return BeautifulSoup(response, convertEntities=BeautifulSoup.HTML_ENTITIES) def visible(element): '''抓取可见的文本元素''' if element.parent.name in ['style', 'script', '[document]', 'head', 'title']: return False elif re.match('<!--.*-->', str(element)): return False elif element == u'\xa0': return False return True def delReturn(element): '''删除元素内的换行''' return re.sub('(?<!^)\n+(?!$)', ' ', str(element)).decode('utf-8') def validFilename(filename): # windows return re.sub('[\/:*?<>"|\xa0]', '', filename) def writeToFile(text, filename, dirname): if not os.path.exists(dirname): os.makedirs(dirname) print encode('保存到目录'), dirname filename = validFilename(filename) print encode('保存文章'), filename path = os.path.join(dirname, filename) if not os.path.exists(path): f = open(path, 'w') f.write(text) f.close() else: print filename, encode('已经存在') def formatContent(url, title=''): '''格式化文章内容''' page = getHTML(url) content = page.find('div', {'class':'articalContent'}) art_id = re.search('blog_(\w+)\.html', url).group(1) blog_name = page.find('span', id='blognamespan').string if title == '': title = page.find('h2', id=re.compile('^t_')).string temp_data = filter(visible, content.findAll(text=True)) # 去掉不可见元素 temp_data = ''.join(map(delReturn, temp_data)) # 删除元素内的换行符 temp_data = temp_data.strip() # 删除文章首尾的空行 temp_data = re.sub('\n{2,}', '\n\n', temp_data) # 删除文章内过多的空行 # 输出到文件 # 编码问题 temp_data = '本文地址:'.decode('utf-8') + url + '\n\n' + temp_data op_text = temp_data.encode('utf-8') op_file = title + '_' + art_id +'.txt' writeToFile(op_text, op_file, blog_name) def articlelist(url): articles = {} page = getHTML(url) pages = page.find('ul', {'class':'SG_pages'}).span.string page_num = int(re.search('(\d+)', pages).group(1)) for i in range(1, page_num+1): print encode('生成第%d页文章索引'%i) if i != 1: url = re.sub('(_)\d+(\.html)$', '\g<1>'+str(i)+'\g<2>', url) page = getHTML(url) article = page.findAll('span', {'class':'atc_title'}) for art in article: art_title = art.a['title'] art_href = art.a['href'] articles[art_title] = art_href return articles def blog_dld(articles): if not isinstance(articles, dict): return False print encode('开始下载文章') for art_title, art_href in articles.items(): formatContent(art_href, art_title) if __name__ == '__main__': sel = raw_input(encode('你要下载的是(1)全部文章还是(2)单篇文章,输入1或者2: ')) if sel == '1': #articlelist_url = 'http://blog.sina.com.cn/s/articlelist_1303481411_0_1.html' articlelist_url = raw_input(encode('请输入博客文章目录链接: ')) articles = articlelist(articlelist_url) blog_dld(articles) else: #article_url = 'http://blog.sina.com.cn/s/blog_4db18c430100gxc5.html' article_url = raw_input(encode('请输入博客文章链接: ')) formatContent(article_url)
希望本文所述对大家的Python程序设计有所帮助。

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











많은 웹 사이트 개발자는 램프 아키텍처에서 Node.js 또는 Python 서비스를 통합하는 문제에 직면 해 있습니다. 기존 램프 (Linux Apache MySQL PHP) 아키텍처 웹 사이트 요구 사항 ...

Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

SCAPY 크롤러를 사용할 때 파이프 라인 영구 스토리지 파일을 작성할 수없는 이유는 무엇입니까? 토론 Data Crawler에 Scapy Crawler를 사용하는 법을 배울 때 종종 ...

Python Process Pool은 클라이언트가 갇히게하는 동시 TCP 요청을 처리합니다. 네트워크 프로그래밍에 Python을 사용하는 경우 동시 TCP 요청을 효율적으로 처리하는 것이 중요합니다. ...

functools.partial in Python의 파이썬 funcTools.partial 객체의 시청 방법을 깊이 탐구하십시오 ...

Python 크로스 플랫폼 데스크톱 응용 프로그램 개발 라이브러리 선택 많은 Python 개발자가 Windows 및 Linux 시스템 모두에서 실행할 수있는 데스크탑 응용 프로그램을 개발하고자합니다 ...

Python : 모래 시계 그래픽 도면 및 입력 검증을 시작 하기이 기사는 모래 시계 그래픽 드로잉 프로그램에서 Python 초보자가 발생하는 변수 정의 문제를 해결합니다. 암호...

많은 개발자들이 PYPI (PythonPackageIndex)에 의존합니다 ...
