BeautifulSoup을 사용하여 HTML 콘텐츠를 구문 분석할 때 HTML 엔터티가 인코딩된 상태로 유지되는 문제가 발생할 수 있습니다. 이러한 엔터티를 디코딩하고 실제 텍스트 콘텐츠를 얻으려면 사용 중인 Python 버전에 따라 다양한 접근 방식을 사용할 수 있습니다.
Python 3.4 이상에서는 html.unescape() 함수는 HTML 엔터티를 디코딩하는 간단한 방법을 제공합니다.
import html print(html.unescape('£682m'))
이렇게 하면 원하는 출력이 반환됩니다. "£682m".
Python 버전 2.6과 3.3 사이의 경우 HTMLParser.unescape() 메서드가 유용합니다.
try: # Python 2.6-2.7 from HTMLParser import HTMLParser except ImportError: # Python 3 from html.parser import HTMLParser h = HTMLParser() print(h.unescape('£682m'))
또는, 6개의 호환성 라이브러리는 모듈 가져오기를 단순화하여 Python에서 HTMLParser를 사용할 수 있도록 합니다. 버전:
from six.moves.html_parser import HTMLParser h = HTMLParser() print(h.unescape('£682m'))
개발자는 이러한 Python 도구를 활용하여 HTML 엔터티를 효율적으로 디코딩하고 구문 분석 요구에 맞는 원하는 텍스트 콘텐츠를 얻을 수 있습니다.
위 내용은 Python에서 HTML 엔터티를 디코딩하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!