Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimanakah Saya Boleh Mengeluarkan Hiperpautan dan URL daripada Halaman Web Menggunakan Python dan BeautifulSoup?

Bagaimanakah Saya Boleh Mengeluarkan Hiperpautan dan URL daripada Halaman Web Menggunakan Python dan BeautifulSoup?

Patricia Arquette
Lepaskan: 2024-12-08 00:12:11
asal
1037 orang telah melayarinya

How Can I Extract Hyperlinks and URLs from a Webpage Using Python and BeautifulSoup?

Mendapatkan semula Pautan Halaman Web dengan Python dan BeautifulSoup

Soalan: Bagaimanakah cara saya mengekstrak hiperpautan daripada halaman web dan mendapatkan URL mereka menggunakan Python?

Jawapan:

Untuk mengekstrak pautan dan alamat URL dengan cekap daripada halaman web menggunakan Python dan BeautifulSoup, anda boleh menggunakan kelas SoupStrainer. Berikut ialah coretan kod:

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])
Salin selepas log masuk

Kod ini mula-mula mengambil kandungan HTML halaman web (menggunakan perpustakaan httplib2). Kemudian, ia menggunakan BeautifulSoup untuk menghuraikan HTML, menapis hanya untuk teg menggunakan kelas SoupStrainer untuk kecekapan yang lebih baik. Akhir sekali, ia berulang pada teg a dan mencetak atribut href bagi setiap satu, dengan berkesan mengekstrak URL pautan.

Rujuk dokumentasi BeautifulSoup untuk mendapatkan maklumat lebih terperinci tentang pelbagai senario penghuraian:

[BeautifulSoup Dokumentasi](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Hiperpautan dan URL daripada Halaman Web Menggunakan Python dan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan