목차
re 라이브러리 사용
BeautifulSoup 라이브러리 사용
웹 프론트엔드 프런트엔드 Q&A Python에서 HTML 태그를 제거하는 방법

Python에서 HTML 태그를 제거하는 방법

Apr 27, 2023 pm 04:39 PM

웹 콘텐츠를 자주 다루는 경우 웹 페이지를 크롤링하고 거기에서 텍스트 콘텐츠를 추출해야 할 수도 있습니다. 그러나 HTML 코드의 태그와 스타일 정보로 인해 텍스트 처리가 상당히 어려워질 수 있습니다. 이 경우 Python 프로그래밍 언어는 HTML 태그를 제거하는 몇 가지 유용한 기능과 라이브러리를 제공하므로 텍스트를 더 쉽게 처리하고 사용할 수 있습니다.

Python은 HTML 태그를 제거하기 위해 일반적으로 사용되는 두 가지 라이브러리인 re와 BeautifulSoup를 제공합니다. 여기서는 이 두 라이브러리를 각각 사용하여 HTML 태그를 제거하는 방법을 알아봅니다.

re 라이브러리 사용

Python의 re(정규 표현식) 라이브러리에는 강력한 문자열 처리 기능이 있습니다. 이 라이브러리의 몇 가지 방법을 사용하여 HTML 태그를 제거할 수 있습니다. 특히 re.sub() 함수를 사용하여 HTML 태그를 대체할 수 있습니다. 예를 살펴보겠습니다.

import re

def remove_tags(text):
    TAG_RE = re.compile(r'<[^>]+>')
    return TAG_RE.sub('', text)

html = '<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>'
print(remove_tags(html))
로그인 후 복사

출력:

Test Parse me!
로그인 후 복사
로그인 후 복사

위 코드에서 re.compile() 함수는 '<1+>'을 사용하여 정규식 객체를 생성하는 데 사용됩니다. 태그. 그런 다음 이 정규식 개체를 re.sub() 함수에 대한 매개 변수로 전달합니다. 이 함수는 일치하는 모든 태그를 빈 문자열로 바꿉니다. 마지막으로 HTML 태그가 제거된 텍스트로 함수를 호출합니다.

간단한 HTML 텍스트를 처리하려면 re 라이브러리를 사용하는 것만으로도 충분할 수 있지만 복잡한 HTML 텍스트를 처리하는 경우 CSS 스타일 및 JavaScript 스크립트 처리를 고려하기 시작하면 처리가 더 어려워진다는 것을 알게 될 것입니다. 이 경우 BeautifulSoup 라이브러리를 사용할 수 있습니다.

BeautifulSoup 라이브러리 사용

BeautifulSoup 라이브러리를 사용하면 HTML 텍스트를 더 쉽게 처리할 수 있으며 re 라이브러리보다 더 유연합니다. BeautifulSoup은 HTML 텍스트를 구문 분석하는 데 도움이 되며 태그, 클래스 등과 같은 특정 요소를 선택할 수 있게 해줍니다. 이를 사용하여 모든 태그를 제거한 다음 텍스트 내용을 추출할 수 있습니다.

예는 다음과 같습니다.

from bs4 import BeautifulSoup

def remove_tags(text):
    soup = BeautifulSoup(text, 'html.parser')
    return soup.get_text()

html = '<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>'
print(remove_tags(html))
로그인 후 복사

출력:

Test Parse me!
로그인 후 복사
로그인 후 복사

위 코드에서는 구문 분석을 위해 HTML 텍스트를 BeautifulSoup() 함수에 전달합니다. 그런 다음 HTML 태그를 무시하고 Soup.get_text() 메서드를 사용하여 텍스트 콘텐츠를 추출합니다.

요약

re 라이브러리를 사용하든 BeautifulSoup 라이브러리를 사용하든 Python은 HTML 태그를 제거하는 다양한 방법을 제공합니다. 간단한 HTML 텍스트를 다루는 경우 re 라이브러리를 사용하세요. 더 복잡한 HTML 텍스트의 경우 BeautifulSoup 라이브러리를 사용하면 처리가 훨씬 쉬워집니다. 어떤 방법을 선택하든 정규식에 익숙하고 선택한 라이브러리의 구문을 이해해야 합니다.


  1. >

위 내용은 Python에서 HTML 태그를 제거하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

useeffect 란 무엇입니까? 부작용을 수행하는 데 어떻게 사용합니까? useeffect 란 무엇입니까? 부작용을 수행하는 데 어떻게 사용합니까? Mar 19, 2025 pm 03:58 PM

이 기사에서는 Data Fetching 및 기능 구성 요소의 DOM 조작과 같은 부작용을 관리하기위한 후크 인 React의 useEffect에 대해 설명합니다. 메모리 누출과 같은 문제를 방지하기 위해 사용법, 일반적인 부작용 및 정리를 설명합니다.

React Reconciliation 알고리즘은 어떻게 작동합니까? React Reconciliation 알고리즘은 어떻게 작동합니까? Mar 18, 2025 pm 01:58 PM

이 기사는 가상 Dom 트리를 비교하여 DOM을 효율적으로 업데이트하는 React의 조정 알고리즘을 설명합니다. 성능 이점, 최적화 기술 및 사용자 경험에 미치는 영향에 대해 설명합니다. 문자 수 : 159

JavaScript의 고차 기능은 무엇이며 어떻게 간결하고 재사용 가능한 코드를 작성하는 데 어떻게 사용할 수 있습니까? JavaScript의 고차 기능은 무엇이며 어떻게 간결하고 재사용 가능한 코드를 작성하는 데 어떻게 사용할 수 있습니까? Mar 18, 2025 pm 01:44 PM

JavaScript의 고차 기능은 추상화, 공통 패턴 및 최적화 기술을 통해 코드 간접성, 재사용 성, 모듈성 및 성능을 향상시킵니다.

카레는 JavaScript에서 어떻게 작동하며 그 이점은 무엇입니까? 카레는 JavaScript에서 어떻게 작동하며 그 이점은 무엇입니까? Mar 18, 2025 pm 01:45 PM

이 기사는 다중 연계 기능을 단일 연계 함수 시퀀스로 변환하는 기술 인 JavaScript의 카레에 대해 논의합니다. Currying의 구현, 부분 응용 프로그램 및 실제 용도와 같은 혜택, 코드 읽기 향상을 탐색합니다.

usecontext는 무엇입니까? 구성 요소간에 상태를 공유하는 데 어떻게 사용합니까? usecontext는 무엇입니까? 구성 요소간에 상태를 공유하는 데 어떻게 사용합니까? Mar 19, 2025 pm 03:59 PM

이 기사는 REACT의 USECONTEXT를 설명하며, 이는 PROP 시추를 피함으로써 상태 관리를 단순화합니다. 중앙 집중식 상태 및 성능 개선과 같은 렌더링을 통해 성능 향상과 같은 이점에 대해 논의합니다.

이벤트 핸들러의 기본 동작을 어떻게 방지합니까? 이벤트 핸들러의 기본 동작을 어떻게 방지합니까? Mar 19, 2025 pm 04:10 PM

기사에서는 extentdefault () 메서드를 사용하여 이벤트 처리기의 기본 동작 방지, 향상된 사용자 경험과 같은 이점 및 접근성 문제와 같은 잠재적 문제에 대해 논의합니다.

Connect ()를 사용하여 React 구성 요소를 Redux 상점에 어떻게 연결합니까? Connect ()를 사용하여 React 구성 요소를 Redux 상점에 어떻게 연결합니까? Mar 21, 2025 pm 06:23 PM

기사는 Connect ()를 사용하여 React 구성 요소를 Redux Store에 연결하고 MapStateToprops, MapDispatchtoprops 및 성능 영향을 설명합니다.

제어 및 제어되지 않은 구성 요소의 장점과 단점은 무엇입니까? 제어 및 제어되지 않은 구성 요소의 장점과 단점은 무엇입니까? Mar 19, 2025 pm 04:16 PM

이 기사는 예측 가능성, 성능 및 사용 사례와 같은 측면에 중점을 둔 React의 제어 및 통제되지 않은 구성 요소의 장단점에 대해 설명합니다. 그것은 그들 사이에서 선택할 때 고려해야 할 요소에 대해 조언합니다.

See all articles