python - 抓取小说网页，不知如何处理编码问题-PHP 중국어 네트워크 Q&A

지역 사회 배우다 도구 라이브러리 여가

한국어

python - 抓取小说网页，不知如何处理编码问题

迷茫 2017-04-18 09:06:20

0

3

420

抓取小说网页，链接在代码中。数据处理为字典，写入txt文件中。不知道怎么处理编码问题，中文不能正确显示，折腾了整个晚上，还是不行，要死。
还有一个问题就是网页源代码中在<p>标签中经常插入<u>----</u>标签，搞到有些字抓取之后看不见，也求一并解答。
刚学python,望大神指点。首先感谢你宝贵的时间，谢谢。

# coding:utf-8
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import requests
import sys

reload(sys)

sys.setdefaultencoding('utf-8')

def towrite(contentdict):
    f.writelines(u'章：' + unicode(contentdict['title']) + '\n')
    f.writelines(unicode(contentdict['content']) + '\n\n')

def spider(url):
    head = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36'}
    html = requests.get(url,headers = head)
    html.encoding = 'utf-8'
    print html.text
    seletor = etree.HTML(html.text)
    title = seletor.xpath('//p[@id="f_title1"]/h1/text()')
    content = seletor.xpath('//p[@id="f_content1"]/p/p/text()')
    fullcontent = ''
    for each in content:
        fullcontent += each
    # title.decode('gb2312').encode('utf-8')
    # fullcontent.encode('utf-8')
    item = {}
    item['title'] = title
    item['content'] = fullcontent
    towrite(item)

if __name__ == '__main__':
    pool = ThreadPool(4)
    f = open('guduliujiang.txt','a')
    page = []
    for i in range(1,29):
        newpage = 'http://www.sbkk8.cn/mingzhu/zhongguoxiandaiwenxuemingzhu/guduliujiang/' + str(145232-i) + '.html'
        page.append(newpage)

    results = pool.map(spider,page)
    pool.close()
    pool.join()
    f.close()

迷茫

业精于勤，荒于嬉;行成于思，毁于随。

모든 응답(3)

小葫芦2017-04-18 09:08:20 3층

웹페이지 소스코드 인코딩은 utf-8이 아닌 gb2312입니다

좋다 +0

답글 추가

黄舟2017-04-18 09:08:20 2층

요청은 BeautifulSoup과 함께 사용됩니다

좋다 +0

답글 추가

小葫芦2017-04-18 09:08:20 1층

질문 1:
print html.encoding을 사용하면 인코딩 형식이 ISO-8859-1임을 알 수 있습니다.
print html.text.decode('ISO-8859-1')는 효과가 없습니다
참조 다음 코드는 터미널에서 한자를 인쇄할 수 있습니다

으아악

질문 2:
당신의 소설 웹페이지(사랑의 외로움(2))를 예로 들어보세요

으아악

원하는 결과인지 확인해 보세요

귀하의 코드를 사용한 테스트 코드는 다음과 같습니다.

으아악

좋다 +0

답글 추가

인기 주제

더>

인기 기사

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿