Heim > Web-Frontend > HTML-Tutorial > So lesen Sie Textinhalte in einer HTML-Datei

So lesen Sie Textinhalte in einer HTML-Datei

下次还敢
Freigeben: 2024-04-11 13:57:24
Original
750 Leute haben es durchsucht

Um den Textinhalt in einer HTML-Datei zu lesen, führen Sie die folgenden Schritte aus: Laden Sie die HTML-Datei. Analysieren Sie den HTML-Code. Extrahieren Sie den Text mit dem Textattribut oder der get_text()-Methode. Optional: Bereinigen Sie den Text (entfernen Sie Leerzeichen und Sonderzeichen und konvertieren Sie ihn in Kleinbuchstaben) Geben Sie den Text aus (Drucken, in Dateien schreiben usw.).

1. HTML-Dateien laden

import requests

url = 'https://example.com'
response = requests.get(url)
Nach dem Login kopieren
So lesen Sie Textinhalte in einer HTML-Datei

2. HTML analysieren

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
Nach dem Login kopieren

3. Textinhalte extrahieren

Es gibt zwei Möglichkeiten, Textinhalte zu extrahieren:

Verwenden Sie den text</code > Attribut: <strong>Textinhalt innerhalb des HTML-Tags extrahieren. Gesamter Text, einschließlich der Beschriftung selbst. </strong></p><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>text = soup.text</pre><div class="contentsignin">Nach dem Login kopieren</div></div><p><strong></strong>Verwenden Sie die Methode <code>get_text():

Extrahieren Sie den Text innerhalb des HTML-Tags, ignorieren Sie jedoch das Tag selbst.

text = soup.get_text()
Nach dem Login kopieren
  • 4. Textinhalt bereinigen (optional) text 属性:提取 HTML 标签内的所有文本,包括标签本身。
text = text.replace(' ', '')
Nach dem Login kopieren
  • 使用 get_text()Wenn Sie den Textinhalt weiter bereinigen müssen, können Sie die folgenden Vorgänge ausführen:

Leerzeichen entfernen:

import string

text = text.translate(str.maketrans('', '', string.punctuation))
Nach dem Login kopieren

  • Sonderzeichen entfernen Zeichen:
  • text = text.lower()
    Nach dem Login kopieren
  • In Kleinbuchstaben umwandeln:
  • print(text)
    Nach dem Login kopieren
    5. Textinhalt ausgeben
  • Sie können Textinhalte auf viele Arten ausgeben:

Auf der Konsole drucken:

with open('output.txt', 'w') as f:
    f.write(text)
Nach dem Login kopieren

  • Datei schreiben:
  • rrreee

Das obige ist der detaillierte Inhalt vonSo lesen Sie Textinhalte in einer HTML-Datei. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage