python - 关于代码的优化问题-PHP 중국어 네트워크 Q&A

지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

python - 关于代码的优化问题

ringa_lee 2017-04-18 10:29:11

0

1

506

我新手写的代码，用来处理爬虫下来的htm文件内容,虽然解决问题，但是会有遗漏文件不处理。爬虫是爬一些文章的网站下来的，和网页另存为没什么区别。

想大神们帮我看看我的代码，怎么优化不会有遗漏。比较小白的代码，麻烦了！！！

# -*- coding: utf-8 -*
import re
import glob

filename_list = glob.glob('*.html')

for i in filename_list:
    txt = ""
    with open(i, "r") as htmfile:
        txt = htmfile.read()
    scdy = r"<hr[\s\S]*?<hr"
    onedotxt = re.findall(scdy, txt)
    if onedotxt:
        r = onedotxt[0]
    twotxt=re.sub('<[^>]*>', '', r) 
    threetxt=re.sub('<hr', '', twotxt)
    fourtxt=re.sub('&#8217;', '', threetxt)
    fivetxt=re.sub('&#8221;', '"', fourtxt)
    sixtxt=re.sub('&#8220;', '"', fivetxt)
    
    endstr=re.sub('&#8211;', '-', sixtxt)
    name = endstr.split('\n')[1]
    with open(name+".txt", "w") as wf:
            wf.write(endstr)

ringa_lee

ringa_lee

모든 응답(1)

Ty802017-04-18 10:31:11 1층

파일 이름_목록 = glob.glob('.html') + glob.glob('.htm')

좋다 +0

답글 추가

인기 주제

더>

인기 기사

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿