Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?

Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?

DDD
Lepaskan: 2024-11-25 18:41:09
asal
797 orang telah melayarinya

How to Extract Visible Webpage Text Using BeautifulSoup?

Mengekstrak Teks Halaman Web Nampak dengan BeautifulSoup

Banyak tugas mengikis web melibatkan mendapatkan semula kandungan teks yang boleh dilihat halaman web, tidak termasuk elemen seperti skrip, komen, dan gaya CSS. Menggunakan BeautifulSoup, mencapai ini boleh menjadi mudah dengan pendekatan yang betul.

Isu biasa timbul apabila menggunakan fungsi findAll(), kerana ia mendapatkan semula semua nod teks, termasuk yang tersembunyi dalam unsur yang tidak diingini. Untuk menangani perkara ini, kami boleh menentukan penapis tersuai untuk mengecualikan teg dan ulasan tertentu.

Kod berikut menunjukkan pendekatan ini:

from bs4 import BeautifulSoup
from bs4.element import Comment
import urllib.request


def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True


def text_from_html(body):
    soup = BeautifulSoup(body, 'html.parser')
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)
    return u" ".join(t.strip() for t in visible_texts)

html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read()
print(text_from_html(html))
Salin selepas log masuk

Fungsi tag_visible menyemak sama ada elemen induk teks nod sepadan dengan mana-mana teg yang tidak diingini atau jika nod ialah ulasan. Nod yang melepasi penapis ini kemudiannya digunakan untuk menggabungkan teks yang boleh dilihat menjadi satu rentetan menggunakan u" ".join(t.strip() untuk t dalam visible_texts).

Pendekatan ini hanya mengekstrak teks yang boleh dilihat dengan berkesan daripada halaman web, meninggalkan elemen yang tidak perlu seperti skrip dan ulasan.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan