스크레이 크롤러를 처음 사용하다가 html의 특수 문자를 발견해서 Baidu에서 문서를 검색했습니다.
import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' # 웹 페이지 이스케이프를 방지하기 위해 공백이 남습니다
s = html_parser.unescape(s)
런타임 프롬프트:
import markupbase
ImportError: 'markupbase'라는 모듈이 없습니다
번역 소프트웨어의 도움으로 공식 HTMLParser 문서를 읽고 두 번째 방법을 찾았습니다
html.parser에서 HTMLParser 가져오기
클래스 MyHTMLParser(HTMLParser):
으아악parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #웹페이지 이스케이프를 방지하기 위해 공백이 남습니다
ss=parser.feed(s)
두 번째 방법은 성공적으로 테스트되었습니다. 발생한 문제는 반환 데이터 문장이 유효하지 않다는 것입니다.
죄송합니다. 코드 몇 줄만으로 이스케이프 문제를 해결할 수 있는 방법이 있나요? 두 번째 방법이 없다면 어떻게 반환 값을 얻을 수 있나요?
으아악