HTML 파일의 텍스트 내용을 읽으려면 다음 단계를 수행하세요. HTML 파일 로드 HTML 구문 분석 text 속성 또는 get_text() 메서드를 사용하여 텍스트 추출 선택 사항: 텍스트 정리(공백, 특수 문자 제거 및 소문자로 변환) 텍스트 출력(인쇄, 파일 쓰기 등)
HTML 파일에서 텍스트 콘텐츠를 읽는 방법
HTML 파일에서 텍스트 콘텐츠를 추출하려면 다음 단계를 사용할 수 있습니다.
1. HTML 파일 로드
<code class="python">import requests url = 'https://example.com' response = requests.get(url)</code>
2. HTML 구문 분석
<code class="python">from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser')</code>
3. 텍스트 콘텐츠 추출
텍스트 콘텐츠를 추출하는 방법에는 두 가지가 있습니다.
text
속성을 사용하세요. text
属性:提取 HTML 标签内的所有文本,包括标签本身。<code class="python">text = soup.text</code>
get_text()
HTML 태그 내의 텍스트 콘텐츠를 추출합니다. 라벨 자체를 포함한 모든 텍스트입니다. <code class="python">text = soup.get_text()</code>
get_text()
메소드 사용: HTML 태그 내의 텍스트를 추출하지만 태그 자체는 무시합니다.
<code class="python">text = text.replace(' ', '')</code>
<code class="python">import string text = text.translate(str.maketrans('', '', string.punctuation))</code>
<code class="python">text = text.lower()</code>
소문자로 변환:
<code class="python">print(text)</code>
<code class="python">with open('output.txt', 'w') as f: f.write(text)</code>
위 내용은 HTML 파일에서 텍스트 내용을 읽는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!