So extrahieren Sie mit BeautifulSoup nur sichtbaren Text aus Webseiten
Web Scraping beinhaltet oft die Auswahl bestimmter Teile des Inhalts einer Webseite, einschließlich sichtbarem Text. BeautifulSoup, eine beliebte Web-Scraping-Bibliothek, kann verwendet werden, um nur den sichtbaren Text zu extrahieren, ohne versteckte Elemente wie Kommentare und Skripte.
Ursprüngliche Frage:
Das Original Die Frage zielt darauf ab, den sichtbaren Text von einer Webseite zu isolieren, insbesondere Skript-Tags, HTML-Kommentare und andere nicht sichtbare Inhalte auszuschließen. Der Benutzer möchte den Haupttext und möglicherweise einige Tabulatornamen abrufen und dabei Elemente wie CSS und JavaScript vermeiden.
Antwort erklärt:
Die bereitgestellte Antwort nutzt BeautifulSoup zusammen mit benutzerdefinierter Filterung, um diese Anfrage zu erfüllen. Die Funktion tag_visible() wertet aus, ob ein bestimmtes Element zu einem bestimmten Satz unsichtbarer Elementtypen gehört (z. B. Stil, Skript, Kopf) oder ob es sich um einen HTML-Kommentar handelt. Wenn ja, wird False zurückgegeben, was darauf hinweist, dass das Element ausgeschlossen werden sollte.
Die Funktion text_from_html() verwendet die Methode BeautifulSoup.findAll() mit dem Textargument, um alle Textelemente zu erfassen. Anschließend wendet es den tag_visible()-Filter auf die Textelemente an, um die sichtbaren zu isolieren. Schließlich werden die sichtbaren Texte zu einer einzigen Zeichenfolge zusammengefasst, wodurch das gewünschte Ergebnis nur aus dem sichtbaren Text der Webseite entsteht.
Das obige ist der detaillierte Inhalt vonWie extrahiere ich mit BeautifulSoup nur sichtbaren Text aus Webseiten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!