Rumah pembangunan bahagian belakang Tutorial Python Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?

Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?

Nov 25, 2024 pm 06:41 PM

How to Extract Visible Webpage Text Using BeautifulSoup?

Mengekstrak Teks Halaman Web Nampak dengan BeautifulSoup

Banyak tugas mengikis web melibatkan mendapatkan semula kandungan teks yang boleh dilihat halaman web, tidak termasuk elemen seperti skrip, komen, dan gaya CSS. Menggunakan BeautifulSoup, mencapai ini boleh menjadi mudah dengan pendekatan yang betul.

Isu biasa timbul apabila menggunakan fungsi findAll(), kerana ia mendapatkan semula semua nod teks, termasuk yang tersembunyi dalam unsur yang tidak diingini. Untuk menangani perkara ini, kami boleh menentukan penapis tersuai untuk mengecualikan teg dan ulasan tertentu.

Kod berikut menunjukkan pendekatan ini:

from bs4 import BeautifulSoup
from bs4.element import Comment
import urllib.request


def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True


def text_from_html(body):
    soup = BeautifulSoup(body, 'html.parser')
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)
    return u" ".join(t.strip() for t in visible_texts)

html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read()
print(text_from_html(html))
Salin selepas log masuk

Fungsi tag_visible menyemak sama ada elemen induk teks nod sepadan dengan mana-mana teg yang tidak diingini atau jika nod ialah ulasan. Nod yang melepasi penapis ini kemudiannya digunakan untuk menggabungkan teks yang boleh dilihat menjadi satu rentetan menggunakan u" ".join(t.strip() untuk t dalam visible_texts).

Pendekatan ini hanya mengekstrak teks yang boleh dilihat dengan berkesan daripada halaman web, meninggalkan elemen yang tidak perlu seperti skrip dan ulasan.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Tag artikel panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html? Bagaimana saya menggunakan sup yang indah untuk menghuraikan html? Mar 10, 2025 pm 06:54 PM

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?

Penapisan gambar di python Penapisan gambar di python Mar 03, 2025 am 09:44 AM

Penapisan gambar di python

Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail Teks Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail Teks Mar 05, 2025 am 09:58 AM

Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail Teks

Cara Bekerja Dengan Dokumen PDF Menggunakan Python Cara Bekerja Dengan Dokumen PDF Menggunakan Python Mar 02, 2025 am 09:54 AM

Cara Bekerja Dengan Dokumen PDF Menggunakan Python

Cara Cache Menggunakan Redis dalam Aplikasi Django Cara Cache Menggunakan Redis dalam Aplikasi Django Mar 02, 2025 am 10:10 AM

Cara Cache Menggunakan Redis dalam Aplikasi Django

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch? Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch? Mar 10, 2025 pm 06:52 PM

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch?

Cara Melaksanakan Struktur Data Anda Sendiri di Python Cara Melaksanakan Struktur Data Anda Sendiri di Python Mar 03, 2025 am 09:28 AM

Cara Melaksanakan Struktur Data Anda Sendiri di Python

Serialization dan deserialisasi objek python: Bahagian 1 Serialization dan deserialisasi objek python: Bahagian 1 Mar 08, 2025 am 09:39 AM

Serialization dan deserialisasi objek python: Bahagian 1

See all articles