Ekstrak tajuk dari halaman web menggunakan Python

WBOY
Lepaskan: 2023-08-31 12:45:05
ke hadapan
1123 orang telah melayarinya

Ekstrak tajuk dari halaman web menggunakan Python

Dalam Python, kita boleh menggunakan pengikisan web untuk mengekstrak tajuk daripada halaman web. Pengikisan web ialah proses mengekstrak data daripada tapak web atau halaman web. Dalam artikel ini, kami akan membuang tajuk halaman web menggunakan perpustakaan Permintaan dan BeautifulSoup dalam Python.

Ekstrak tajuk dari halaman web

Kaedah 1: Gunakan perpustakaan Permintaan dan Sup Cantik

Kami boleh menggunakan permintaan Python dan perpustakaan Beautiful Soup untuk mengekstrak tajuk daripada halaman web. Pustaka permintaan digunakan untuk menghantar permintaan HTTP ke tapak web dan mendapatkan responsnya. Kami kemudian menggunakan objek respons untuk mengekstrak kandungan HTML halaman web.

Contoh

Dalam contoh di bawah, kami mengekstrak tajuk halaman utama Wikipedia. Kami menggunakan perpustakaan permintaan untuk menghantar permintaan GET ke URL halaman Wikipedia dan menyimpan objek tindak balas dalam pembolehubah tindak balas.

Kami kemudiannya boleh menggunakan objek Beautiful Soup untuk menghuraikan kandungan HTML yang diterima dalam objek respons dan mengekstrak tag tajuk halaman web menggunakan atribut soup.title. Kami kemudiannya boleh mengekstrak atribut rentetan dan menyimpannya dalam pembolehubah tajuk.

import requests
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
response = requests.get(url)

soup = BeautifulSoup(response.content, 'html.parser')
title = soup.title.string

print(title)
Salin selepas log masuk

Output

Wikipedia
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Kaedah 2: Gunakan urllib dan BeautifulSoup untuk mengekstrak tajuk

Kaedah urllib dan BeautifulSoup digunakan untuk mengekstrak tajuk daripada halaman web dengan membuka URL dan mendapatkan semula kandungan HTML halaman web menggunakan perpustakaan urllib. Cipta objek BeautifulSoup dengan kandungan HTML dan gunakan sifat 'soup.title' untuk mengekstrak teg tajuk halaman.

Contoh

Dalam contoh di bawah, kami menggunakan perpustakaan urllib untuk membuka URL dan mendapatkan semula kandungan HTML halaman web. Kami kemudian menggunakan penghurai 'html.parser' untuk mencipta objek BeautifulSoup menggunakan kandungan HTML halaman web.

Kemudian kita boleh menggunakan atribut 'soup.title' untuk mengekstrak tag tajuk halaman web. Akhir sekali, kami menggunakan atribut "rentetan" untuk mengekstrak kandungan rentetan teg tajuk dan menyimpannya dalam pembolehubah "tajuk". Kemudian kami mencetak tajuk halaman web ke konsol.

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
html_page = urlopen(url)
soup = BeautifulSoup(html_page, 'html.parser')
title = soup.title.string

print(title)
Salin selepas log masuk

Output

Wikipedia
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Kaedah 3: Gunakan selenium dan BeautifulSoup untuk mengekstrak tajuk

Kaedah selenium dan BeautifulSoup digunakan untuk mengekstrak tajuk daripada halaman web dengan membuka URL menggunakan perpustakaan selenium dan mendapatkan semula kandungan HTML halaman web. Buat Pemacu Web Chrome dan gunakannya untuk menavigasi ke halaman web. Dapatkan semula kandungan HTML halaman web menggunakan atribut "page_source" pemacu web. Cipta objek BeautifulSoup dengan kandungan HTML dan gunakan sifat 'soup.title' untuk mengekstrak teg tajuk halaman.

Contoh

Dalam contoh di bawah, kami menggunakan perpustakaan selenium untuk membuka URL dan mendapatkan semula kandungan HTML halaman web. Kami mencipta Pemacu Web Chrome dan menggunakannya untuk menavigasi ke halaman web. Kami kemudian mendapatkan semula kandungan HTML halaman web menggunakan atribut "page_source" pemacu rangkaian.

Kami menggunakan penghurai "html.parser" untuk mencipta objek BeautifulSoup menggunakan kandungan HTML halaman web. Kami kemudiannya boleh mengekstrak teg tajuk halaman web menggunakan sifat "soup.title". Akhir sekali, kami menggunakan atribut "rentetan" untuk mengekstrak kandungan rentetan teg tajuk dan menyimpannya dalam pembolehubah "tajuk". Kemudian kami mencetak tajuk halaman web ke konsol.

from selenium import webdriver
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
driver = webdriver.Chrome()
driver.get(url)

html_page = driver.page_source
soup = BeautifulSoup(html_page, 'html.parser')
title = soup.title.string

print(title)

driver.quit()
Salin selepas log masuk

Output

Wikipedia
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Kaedah 4: Gunakan ungkapan biasa untuk mengekstrak tajuk

Kaedah ungkapan biasa digunakan untuk mengekstrak pengepala daripada halaman web dengan menggunakan perpustakaan permintaan untuk menghantar permintaan GET ke URL dan menyimpan objek respons. Kandungan HTML halaman web kemudiannya dinyahkod dan disimpan dalam pembolehubah. Tentukan corak ungkapan biasa untuk memadankan teg tajuk halaman web. Kaedah Carian corak ungkapan biasa mencari kejadian pertama corak dalam kandungan HTML halaman web. Kaedah kumpulan(1) boleh digunakan untuk mengekstrak kandungan rentetan kumpulan pertama yang dipadankan untuk mendapatkan tajuk halaman web.

Contoh

Dalam contoh di bawah, kami menggunakan ungkapan biasa untuk mengekstrak tajuk halaman web. Kami menggunakan perpustakaan permintaan untuk menghantar permintaan GET ke URL dan menyimpan objek tindak balas dalam pembolehubah "tindak balas".

Kemudian, kami menyahkod kandungan HTML halaman web menggunakan pengekodan "utf-8" dan menyimpannya dalam pembolehubah "html_content". Kami mentakrifkan corak ungkapan biasa untuk memadankan teg tajuk halaman web.

Kami menggunakan kaedah "carian" corak ungkapan biasa untuk mencari kejadian pertama corak itu dalam kandungan HTML halaman web. Kami menggunakan kaedah "kumpulan(1)" untuk mengekstrak kandungan rentetan kumpulan padanan pertama dan menyimpannya dalam pembolehubah "tajuk". Kemudian kami mencetak tajuk halaman web ke konsol.

import requests

url = 'https://www.wikipedia.org/'
response = requests.get(url)
html_content = response.content.decode('utf-8')

title_pattern = re.compile('(.+?)')
match = title_pattern.search(html_content)
title = match.group(1)

print(title)
Salin selepas log masuk

Output

Wikipedia
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

KESIMPULAN

Dalam artikel ini, kami membincangkan proses mengekstrak tajuk daripada halaman web menggunakan permintaan dan perpustakaan Beautiful Soup dalam Python. Pustaka permintaan digunakan untuk menghantar permintaan HTTP ke URL tapak web dan mendapatkan kandungan HTML sebagai tindak balas. Pustaka Beautiful Soup kemudiannya digunakan untuk menghuraikan kandungan HTML dan mengekstrak pengepala yang diperlukan daripada kandungan HTML.

Atas ialah kandungan terperinci Ekstrak tajuk dari halaman web menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:tutorialspoint.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan