Python에서 XML/HTML 엔터티를 유니코드로 변환
과제:
웹 스크래핑에서 , HTML 엔터티는 일반적으로 ASCII가 아닌 문자를 나타내는 데 사용됩니다. Python에는 이러한 엔터티가 포함된 문자열을 유니코드 유형으로 변환할 수 있는 유틸리티가 필요합니다.
해결책:
Python 표준 라이브러리의 HTMLParser에는 문서화되지 않은 함수인 unescape()가 있습니다. , 이는 이 요구 사항을 효과적으로 충족할 수 있습니다.
구현:
Python 3.4 이하의 경우:
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() result = h.unescape('&copy; 2010') # u'\xa9 2010'</code>
Python 3.4 이상:
<code class="python">import html result = html.unescape('&copy; 2010') # u'\xa9 2010'</code>
예:
HTML 엔터티 ǎ를 고려하세요. " 바이너리로 톤 표시가 있습니다. unescape()를 사용하면 유니코드 값 u'u01ce'로 변환할 수 있습니다:
<code class="python">result = h.unescape('&#x01ce;') # u'\u01ce'</code>
위 내용은 Python에서 XML/HTML 엔터티를 유니코드로 변환하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!