HTML 파일에서 텍스트 내용을 읽는 방법

下次还敢
풀어 주다: 2024-04-11 13:57:24
원래의
497명이 탐색했습니다.

HTML 파일의 텍스트 내용을 읽으려면 다음 단계를 수행하세요. HTML 파일 로드 HTML 구문 분석 text 속성 또는 get_text() 메서드를 사용하여 텍스트 추출 선택 사항: 텍스트 정리(공백, 특수 문자 제거 및 소문자로 변환) 텍스트 출력(인쇄, 파일 쓰기 등)

HTML 파일에서 텍스트 내용을 읽는 방법

HTML 파일에서 텍스트 콘텐츠를 읽는 방법

HTML 파일에서 텍스트 콘텐츠를 추출하려면 다음 단계를 사용할 수 있습니다.

1. HTML 파일 로드

<code class="python">import requests

url = 'https://example.com'
response = requests.get(url)</code>
로그인 후 복사

2. HTML 구문 분석

<code class="python">from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')</code>
로그인 후 복사

3. 텍스트 콘텐츠 추출

텍스트 콘텐츠를 추출하는 방법에는 두 가지가 있습니다.

  • text 속성을 ​​사용하세요. text 属性:提取 HTML 标签内的所有文本,包括标签本身。
<code class="python">text = soup.text</code>
로그인 후 복사
  • 使用 get_text()HTML 태그 내의 텍스트 콘텐츠를 추출합니다. 라벨 자체를 포함한 모든 텍스트입니다.
<code class="python">text = soup.get_text()</code>
로그인 후 복사

get_text() 메소드 사용: HTML 태그 내의 텍스트를 추출하지만 태그 자체는 무시합니다.

<code class="python">text = text.replace(' ', '')</code>
로그인 후 복사
    4. 텍스트 내용 정리(선택 사항)
  • 텍스트 내용을 추가로 정리해야 하는 경우 다음 작업을 수행할 수 있습니다.
  • 공백 문자 제거:
<code class="python">import string

text = text.translate(str.maketrans('', '', string.punctuation))</code>
로그인 후 복사
  • 특수 문자 제거 문자:
<code class="python">text = text.lower()</code>
로그인 후 복사

소문자로 변환:

<code class="python">print(text)</code>
로그인 후 복사
    5. 텍스트 내용 출력
  • 다양한 방법으로 텍스트 내용을 출력할 수 있습니다:
  • 콘솔로 인쇄:
  • rr 리
🎜 🎜파일 쓰기: 🎜🎜🎜
<code class="python">with open('output.txt', 'w') as f:
    f.write(text)</code>
로그인 후 복사

위 내용은 HTML 파일에서 텍스트 내용을 읽는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿