


Ekstrak tajuk dari halaman web menggunakan Python
Dalam Python, kita boleh menggunakan pengikisan web untuk mengekstrak tajuk daripada halaman web. Pengikisan web ialah proses mengekstrak data daripada tapak web atau halaman web. Dalam artikel ini, kami akan membuang tajuk halaman web menggunakan perpustakaan Permintaan dan BeautifulSoup dalam Python.
Ekstrak tajuk dari halaman web
Kaedah 1: Gunakan perpustakaan Permintaan dan Sup Cantik
Kami boleh menggunakan permintaan Python dan perpustakaan Beautiful Soup untuk mengekstrak tajuk daripada halaman web. Pustaka permintaan digunakan untuk menghantar permintaan HTTP ke tapak web dan mendapatkan responsnya. Kami kemudian menggunakan objek respons untuk mengekstrak kandungan HTML halaman web.
Contoh
Dalam contoh di bawah, kami mengekstrak tajuk halaman utama Wikipedia. Kami menggunakan perpustakaan permintaan untuk menghantar permintaan GET ke URL halaman Wikipedia dan menyimpan objek tindak balas dalam pembolehubah tindak balas.
Kami kemudiannya boleh menggunakan objek Beautiful Soup untuk menghuraikan kandungan HTML yang diterima dalam objek respons dan mengekstrak tag tajuk halaman web menggunakan atribut soup.title. Kami kemudiannya boleh mengekstrak atribut rentetan dan menyimpannya dalam pembolehubah tajuk.
import requests from bs4 import BeautifulSoup url = 'https://www.wikipedia.org/' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') title = soup.title.string print(title)
Output
Wikipedia
Kaedah 2: Gunakan urllib dan BeautifulSoup untuk mengekstrak tajuk
Kaedah urllib dan BeautifulSoup digunakan untuk mengekstrak tajuk daripada halaman web dengan membuka URL dan mendapatkan semula kandungan HTML halaman web menggunakan perpustakaan urllib. Cipta objek BeautifulSoup dengan kandungan HTML dan gunakan sifat 'soup.title' untuk mengekstrak teg tajuk halaman.
Contoh
Dalam contoh di bawah, kami menggunakan perpustakaan urllib untuk membuka URL dan mendapatkan semula kandungan HTML halaman web. Kami kemudian menggunakan penghurai 'html.parser' untuk mencipta objek BeautifulSoup menggunakan kandungan HTML halaman web.
Kemudian kita boleh menggunakan atribut 'soup.title' untuk mengekstrak tag tajuk halaman web. Akhir sekali, kami menggunakan atribut "rentetan" untuk mengekstrak kandungan rentetan teg tajuk dan menyimpannya dalam pembolehubah "tajuk". Kemudian kami mencetak tajuk halaman web ke konsol.
from urllib.request import urlopen from bs4 import BeautifulSoup url = 'https://www.wikipedia.org/' html_page = urlopen(url) soup = BeautifulSoup(html_page, 'html.parser') title = soup.title.string print(title)
Output
Wikipedia
Kaedah 3: Gunakan selenium dan BeautifulSoup untuk mengekstrak tajuk
Kaedah selenium dan BeautifulSoup digunakan untuk mengekstrak tajuk daripada halaman web dengan membuka URL menggunakan perpustakaan selenium dan mendapatkan semula kandungan HTML halaman web. Buat Pemacu Web Chrome dan gunakannya untuk menavigasi ke halaman web. Dapatkan semula kandungan HTML halaman web menggunakan atribut "page_source" pemacu web. Cipta objek BeautifulSoup dengan kandungan HTML dan gunakan sifat 'soup.title' untuk mengekstrak teg tajuk halaman.
Contoh
Dalam contoh di bawah, kami menggunakan perpustakaan selenium untuk membuka URL dan mendapatkan semula kandungan HTML halaman web. Kami mencipta Pemacu Web Chrome dan menggunakannya untuk menavigasi ke halaman web. Kami kemudian mendapatkan semula kandungan HTML halaman web menggunakan atribut "page_source" pemacu rangkaian.
Kami menggunakan penghurai "html.parser" untuk mencipta objek BeautifulSoup menggunakan kandungan HTML halaman web. Kami kemudiannya boleh mengekstrak teg tajuk halaman web menggunakan sifat "soup.title". Akhir sekali, kami menggunakan atribut "rentetan" untuk mengekstrak kandungan rentetan teg tajuk dan menyimpannya dalam pembolehubah "tajuk". Kemudian kami mencetak tajuk halaman web ke konsol.
from selenium import webdriver from bs4 import BeautifulSoup url = 'https://www.wikipedia.org/' driver = webdriver.Chrome() driver.get(url) html_page = driver.page_source soup = BeautifulSoup(html_page, 'html.parser') title = soup.title.string print(title) driver.quit()
Output
Wikipedia
Kaedah 4: Gunakan ungkapan biasa untuk mengekstrak tajuk
Kaedah ungkapan biasa digunakan untuk mengekstrak pengepala daripada halaman web dengan menggunakan perpustakaan permintaan untuk menghantar permintaan GET ke URL dan menyimpan objek respons. Kandungan HTML halaman web kemudiannya dinyahkod dan disimpan dalam pembolehubah. Tentukan corak ungkapan biasa untuk memadankan teg tajuk halaman web. Kaedah Carian corak ungkapan biasa mencari kejadian pertama corak dalam kandungan HTML halaman web. Kaedah kumpulan(1) boleh digunakan untuk mengekstrak kandungan rentetan kumpulan pertama yang dipadankan untuk mendapatkan tajuk halaman web.
Contoh
Dalam contoh di bawah, kami menggunakan ungkapan biasa untuk mengekstrak tajuk halaman web. Kami menggunakan perpustakaan permintaan untuk menghantar permintaan GET ke URL dan menyimpan objek tindak balas dalam pembolehubah "tindak balas".
Kemudian, kami menyahkod kandungan HTML halaman web menggunakan pengekodan "utf-8" dan menyimpannya dalam pembolehubah "html_content". Kami mentakrifkan corak ungkapan biasa untuk memadankan teg tajuk halaman web.
Kami menggunakan kaedah "carian" corak ungkapan biasa untuk mencari kejadian pertama corak itu dalam kandungan HTML halaman web. Kami menggunakan kaedah "kumpulan(1)" untuk mengekstrak kandungan rentetan kumpulan padanan pertama dan menyimpannya dalam pembolehubah "tajuk". Kemudian kami mencetak tajuk halaman web ke konsol.
import requests url = 'https://www.wikipedia.org/' response = requests.get(url) html_content = response.content.decode('utf-8') title_pattern = re.compile('(.+?)') match = title_pattern.search(html_content) title = match.group(1) print(title)
Output
Wikipedia
KESIMPULAN
Dalam artikel ini, kami membincangkan proses mengekstrak tajuk daripada halaman web menggunakan permintaan dan perpustakaan Beautiful Soup dalam Python. Pustaka permintaan digunakan untuk menghantar permintaan HTTP ke URL tapak web dan mendapatkan kandungan HTML sebagai tindak balas. Pustaka Beautiful Soup kemudiannya digunakan untuk menghuraikan kandungan HTML dan mengekstrak pengepala yang diperlukan daripada kandungan HTML.
Atas ialah kandungan terperinci Ekstrak tajuk dari halaman web menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Ramai pemaju laman web menghadapi masalah mengintegrasikan perkhidmatan node.js atau python di bawah seni bina lampu: lampu sedia ada (Linux Apache MySQL PHP) Laman web seni bina memerlukan ...

Apabila menggunakan crawler scapy, sebab mengapa fail penyimpanan berterusan paip tidak boleh ditulis? Perbincangan Ketika belajar menggunakan Crawler Scapy untuk Crawler Data, anda sering menemui ...

Penyelesaian kepada Isu Kebenaran Semasa Melihat Versi Python di Terminal Linux Apabila anda cuba melihat versi Python di Terminal Linux, masukkan Python ...

Apabila menggunakan Perpustakaan Pandas Python, bagaimana untuk menyalin seluruh lajur antara dua data data dengan struktur yang berbeza adalah masalah biasa. Katakan kita mempunyai dua DAT ...

Proses Python Pool mengendalikan permintaan TCP serentak yang menyebabkan pelanggan terjebak. Apabila menggunakan Python untuk pengaturcaraan rangkaian, adalah penting untuk mengendalikan permintaan TCP serentak dengan cekap. …

Sangat meneroka kaedah tontonan python funcools.partial Object in Funcools.Partial Menggunakan Python ...

Pilihan Perpustakaan Pembangunan Aplikasi Desktop Python Python Banyak pemaju Python ingin membangunkan aplikasi desktop yang boleh dijalankan pada kedua-dua sistem Windows dan Linux ...

Bermula dengan Python: Lukisan Grafik Hourglass dan Pengesahan Input Artikel ini akan menyelesaikan masalah definisi berubah -ubah yang dihadapi oleh pemula python dalam program lukisan grafik Hourglass. Kod ...
