python - python3에서 이러한 HTML 이스케이프 문자를 발견하면 '<abc>'를 자동으로 이스케이프하는 방법은 무엇입니까?
typecho
typecho 2017-06-12 09:27:01
0
1
1018

스크레이 크롤러를 처음 사용하다가 html의 특수 문자를 발견해서 Baidu에서 문서를 검색했습니다.

import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' # 웹 페이지 이스케이프를 방지하기 위해 공백이 남습니다
s = html_parser.unescape(s)

런타임 프롬프트:
import markupbase
ImportError: 'markupbase'라는 모듈이 없습니다


번역 소프트웨어의 도움으로 공식 HTMLParser 문서를 읽고 두 번째 방법을 찾았습니다

html.parser에서 HTMLParser 가져오기

클래스 MyHTMLParser(HTMLParser):

으아악

parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #웹페이지 이스케이프를 방지하기 위해 공백이 남습니다
ss=parser.feed(s)

두 번째 방법은 성공적으로 테스트되었습니다. 발생한 문제는 반환 데이터 문장이 유효하지 않다는 것입니다.


죄송합니다. 코드 몇 줄만으로 이스케이프 문제를 해결할 수 있는 방법이 있나요? 두 번째 방법이 없다면 어떻게 반환 값을 얻을 수 있나요?

typecho
typecho

Following the voice in heart.

모든 응답(1)
某草草

으아악

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿