Python의 문자열에서 HTML 제거
HTML 콘텐츠와 상호작용할 때 의미 있는 텍스트를 마크업 태그에서 분리해야 하는 경우가 종종 있습니다. 추가 처리 또는 분석. Python에서 이를 효율적으로 수행하는 방법은 다음과 같습니다.
문자열에서 HTML 태그를 제거하려면 Python 표준 라이브러리의 HTMLParser를 활용하세요. 이 파서는 HTML 문서를 구문 분석하고 원하는 콘텐츠만 추출하는 간단한 방법을 제공합니다.
Python 3의 경우 다음 코드를 사용합니다.
from io import StringIO from html.parser import HTMLParser class TagStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs = True self.text = StringIO() def handle_data(self, data): self.text.write(data) def get_data(self): return self.text.getvalue() def strip_html(html): stripper = TagStripper() stripper.feed(html) return stripper.get_data()
Python 2의 경우 다음 코드를 사용합니다.
from HTMLParser import HTMLParser from StringIO import StringIO class TagStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, data): self.text.write(data) def get_data(self): return self.text.getvalue() def strip_html(html): stripper = TagStripper() stripper.feed(html) return stripper.get_data()
이제 사용법을 살펴보겠습니다.
html = "<p>Hello, <em>world</em>!</p>" stripped_text = strip_html(html) print(stripped_text) # Output: Hello, world!
위 내용은 Python의 문자열에서 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!