> 백엔드 개발 > 파이썬 튜토리얼 > Python의 문자열에서 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?

Python의 문자열에서 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?

Susan Sarandon
풀어 주다: 2024-12-28 22:26:10
원래의
946명이 탐색했습니다.

How Can I Efficiently Strip HTML Tags from Strings in Python?

Python의 문자열에서 HTML 제거

HTML 콘텐츠와 상호작용할 때 의미 있는 텍스트를 마크업 태그에서 분리해야 하는 경우가 종종 있습니다. 추가 처리 또는 분석. Python에서 이를 효율적으로 수행하는 방법은 다음과 같습니다.

문자열에서 HTML 태그를 제거하려면 Python 표준 라이브러리의 HTMLParser를 활용하세요. 이 파서는 HTML 문서를 구문 분석하고 원하는 콘텐츠만 추출하는 간단한 방법을 제공합니다.

Python 3의 경우 다음 코드를 사용합니다.

from io import StringIO
from html.parser import HTMLParser

class TagStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs = True
        self.text = StringIO()
    def handle_data(self, data):
        self.text.write(data)
    def get_data(self):
        return self.text.getvalue()

def strip_html(html):
    stripper = TagStripper()
    stripper.feed(html)
    return stripper.get_data()
로그인 후 복사

Python 2의 경우 다음 코드를 사용합니다.

from HTMLParser import HTMLParser
from StringIO import StringIO

class TagStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, data):
        self.text.write(data)
    def get_data(self):
        return self.text.getvalue()

def strip_html(html):
    stripper = TagStripper()
    stripper.feed(html)
    return stripper.get_data()
로그인 후 복사

이제 사용법을 살펴보겠습니다.

html = "<p>Hello, <em>world</em>!</p>"
stripped_text = strip_html(html)
print(stripped_text)  # Output: Hello, world!
로그인 후 복사

위 내용은 Python의 문자열에서 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿