Mengekstrak Teks Halaman Web Nampak dengan BeautifulSoup
Banyak tugas mengikis web melibatkan mendapatkan semula kandungan teks yang boleh dilihat halaman web, tidak termasuk elemen seperti skrip, komen, dan gaya CSS. Menggunakan BeautifulSoup, mencapai ini boleh menjadi mudah dengan pendekatan yang betul.
Isu biasa timbul apabila menggunakan fungsi findAll(), kerana ia mendapatkan semula semua nod teks, termasuk yang tersembunyi dalam unsur yang tidak diingini. Untuk menangani perkara ini, kami boleh menentukan penapis tersuai untuk mengecualikan teg dan ulasan tertentu.
Kod berikut menunjukkan pendekatan ini:
from bs4 import BeautifulSoup from bs4.element import Comment import urllib.request def tag_visible(element): if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']: return False if isinstance(element, Comment): return False return True def text_from_html(body): soup = BeautifulSoup(body, 'html.parser') texts = soup.findAll(text=True) visible_texts = filter(tag_visible, texts) return u" ".join(t.strip() for t in visible_texts) html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read() print(text_from_html(html))
Fungsi tag_visible menyemak sama ada elemen induk teks nod sepadan dengan mana-mana teg yang tidak diingini atau jika nod ialah ulasan. Nod yang melepasi penapis ini kemudiannya digunakan untuk menggabungkan teks yang boleh dilihat menjadi satu rentetan menggunakan u" ".join(t.strip() untuk t dalam visible_texts).
Pendekatan ini hanya mengekstrak teks yang boleh dilihat dengan berkesan daripada halaman web, meninggalkan elemen yang tidak perlu seperti skrip dan ulasan.
Atas ialah kandungan terperinci Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!