


Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?
Nov 25, 2024 pm 06:41 PMMengekstrak Teks Halaman Web Nampak dengan BeautifulSoup
Banyak tugas mengikis web melibatkan mendapatkan semula kandungan teks yang boleh dilihat halaman web, tidak termasuk elemen seperti skrip, komen, dan gaya CSS. Menggunakan BeautifulSoup, mencapai ini boleh menjadi mudah dengan pendekatan yang betul.
Isu biasa timbul apabila menggunakan fungsi findAll(), kerana ia mendapatkan semula semua nod teks, termasuk yang tersembunyi dalam unsur yang tidak diingini. Untuk menangani perkara ini, kami boleh menentukan penapis tersuai untuk mengecualikan teg dan ulasan tertentu.
Kod berikut menunjukkan pendekatan ini:
from bs4 import BeautifulSoup from bs4.element import Comment import urllib.request def tag_visible(element): if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']: return False if isinstance(element, Comment): return False return True def text_from_html(body): soup = BeautifulSoup(body, 'html.parser') texts = soup.findAll(text=True) visible_texts = filter(tag_visible, texts) return u" ".join(t.strip() for t in visible_texts) html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read() print(text_from_html(html))
Fungsi tag_visible menyemak sama ada elemen induk teks nod sepadan dengan mana-mana teg yang tidak diingini atau jika nod ialah ulasan. Nod yang melepasi penapis ini kemudiannya digunakan untuk menggabungkan teks yang boleh dilihat menjadi satu rentetan menggunakan u" ".join(t.strip() untuk t dalam visible_texts).
Pendekatan ini hanya mengekstrak teks yang boleh dilihat dengan berkesan daripada halaman web, meninggalkan elemen yang tidak perlu seperti skrip dan ulasan.
Atas ialah kandungan terperinci Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Artikel Panas

Alat panas Tag

Artikel Panas

Tag artikel panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?

Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail Teks

Cara Bekerja Dengan Dokumen PDF Menggunakan Python

Cara Cache Menggunakan Redis dalam Aplikasi Django

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch?

Cara Melaksanakan Struktur Data Anda Sendiri di Python

Serialization dan deserialisasi objek python: Bahagian 1
