Ekstrak tajuk dari halaman web menggunakan Python-Tutorial Python-php.cn

Jadual Kandungan

Ekstrak tajuk dari halaman web

Kaedah 1: Gunakan perpustakaan Permintaan dan Sup Cantik

Contoh

Output

Kaedah 2: Gunakan urllib dan BeautifulSoup untuk mengekstrak tajuk

Kaedah 3: Gunakan selenium dan BeautifulSoup untuk mengekstrak tajuk

Kaedah 4: Gunakan ungkapan biasa untuk mengekstrak tajuk

KESIMPULAN

Rumah

pembangunan bahagian belakang

Tutorial Python

Ekstrak tajuk dari halaman web menggunakan Python

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 31, 2023 pm 12:45 PM

python laman web ekstrak

Ekstrak tajuk dari halaman web menggunakan Python

Dalam Python, kita boleh menggunakan pengikisan web untuk mengekstrak tajuk daripada halaman web. Pengikisan web ialah proses mengekstrak data daripada tapak web atau halaman web. Dalam artikel ini, kami akan membuang tajuk halaman web menggunakan perpustakaan Permintaan dan BeautifulSoup dalam Python.

Ekstrak tajuk dari halaman web

Kaedah 1: Gunakan perpustakaan Permintaan dan Sup Cantik

Kami boleh menggunakan permintaan Python dan perpustakaan Beautiful Soup untuk mengekstrak tajuk daripada halaman web. Pustaka permintaan digunakan untuk menghantar permintaan HTTP ke tapak web dan mendapatkan responsnya. Kami kemudian menggunakan objek respons untuk mengekstrak kandungan HTML halaman web.

Contoh

Dalam contoh di bawah, kami mengekstrak tajuk halaman utama Wikipedia. Kami menggunakan perpustakaan permintaan untuk menghantar permintaan GET ke URL halaman Wikipedia dan menyimpan objek tindak balas dalam pembolehubah tindak balas.

Kami kemudiannya boleh menggunakan objek Beautiful Soup untuk menghuraikan kandungan HTML yang diterima dalam objek respons dan mengekstrak tag tajuk halaman web menggunakan atribut soup.title. Kami kemudiannya boleh mengekstrak atribut rentetan dan menyimpannya dalam pembolehubah tajuk.

import requests
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
response = requests.get(url)

soup = BeautifulSoup(response.content, 'html.parser')
title = soup.title.string

print(title)

Salin selepas log masuk

Output

Wikipedia

Salin selepas log masuk

Kaedah 2: Gunakan urllib dan BeautifulSoup untuk mengekstrak tajuk

Kaedah urllib dan BeautifulSoup digunakan untuk mengekstrak tajuk daripada halaman web dengan membuka URL dan mendapatkan semula kandungan HTML halaman web menggunakan perpustakaan urllib. Cipta objek BeautifulSoup dengan kandungan HTML dan gunakan sifat 'soup.title' untuk mengekstrak teg tajuk halaman.

Contoh

Dalam contoh di bawah, kami menggunakan perpustakaan urllib untuk membuka URL dan mendapatkan semula kandungan HTML halaman web. Kami kemudian menggunakan penghurai 'html.parser' untuk mencipta objek BeautifulSoup menggunakan kandungan HTML halaman web.

Kemudian kita boleh menggunakan atribut 'soup.title' untuk mengekstrak tag tajuk halaman web. Akhir sekali, kami menggunakan atribut "rentetan" untuk mengekstrak kandungan rentetan teg tajuk dan menyimpannya dalam pembolehubah "tajuk". Kemudian kami mencetak tajuk halaman web ke konsol.

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
html_page = urlopen(url)
soup = BeautifulSoup(html_page, 'html.parser')
title = soup.title.string

print(title)

Salin selepas log masuk

Output

Wikipedia

Salin selepas log masuk

Kaedah 3: Gunakan selenium dan BeautifulSoup untuk mengekstrak tajuk

Kaedah selenium dan BeautifulSoup digunakan untuk mengekstrak tajuk daripada halaman web dengan membuka URL menggunakan perpustakaan selenium dan mendapatkan semula kandungan HTML halaman web. Buat Pemacu Web Chrome dan gunakannya untuk menavigasi ke halaman web. Dapatkan semula kandungan HTML halaman web menggunakan atribut "page_source" pemacu web. Cipta objek BeautifulSoup dengan kandungan HTML dan gunakan sifat 'soup.title' untuk mengekstrak teg tajuk halaman.

Contoh

Dalam contoh di bawah, kami menggunakan perpustakaan selenium untuk membuka URL dan mendapatkan semula kandungan HTML halaman web. Kami mencipta Pemacu Web Chrome dan menggunakannya untuk menavigasi ke halaman web. Kami kemudian mendapatkan semula kandungan HTML halaman web menggunakan atribut "page_source" pemacu rangkaian.

Kami menggunakan penghurai "html.parser" untuk mencipta objek BeautifulSoup menggunakan kandungan HTML halaman web. Kami kemudiannya boleh mengekstrak teg tajuk halaman web menggunakan sifat "soup.title". Akhir sekali, kami menggunakan atribut "rentetan" untuk mengekstrak kandungan rentetan teg tajuk dan menyimpannya dalam pembolehubah "tajuk". Kemudian kami mencetak tajuk halaman web ke konsol.

from selenium import webdriver
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
driver = webdriver.Chrome()
driver.get(url)

html_page = driver.page_source
soup = BeautifulSoup(html_page, 'html.parser')
title = soup.title.string

print(title)

driver.quit()

Salin selepas log masuk

Output

Wikipedia

Salin selepas log masuk

Kaedah 4: Gunakan ungkapan biasa untuk mengekstrak tajuk

Kaedah ungkapan biasa digunakan untuk mengekstrak pengepala daripada halaman web dengan menggunakan perpustakaan permintaan untuk menghantar permintaan GET ke URL dan menyimpan objek respons. Kandungan HTML halaman web kemudiannya dinyahkod dan disimpan dalam pembolehubah. Tentukan corak ungkapan biasa untuk memadankan teg tajuk halaman web. Kaedah Carian corak ungkapan biasa mencari kejadian pertama corak dalam kandungan HTML halaman web. Kaedah kumpulan(1) boleh digunakan untuk mengekstrak kandungan rentetan kumpulan pertama yang dipadankan untuk mendapatkan tajuk halaman web.

Contoh

Dalam contoh di bawah, kami menggunakan ungkapan biasa untuk mengekstrak tajuk halaman web. Kami menggunakan perpustakaan permintaan untuk menghantar permintaan GET ke URL dan menyimpan objek tindak balas dalam pembolehubah "tindak balas".

Kemudian, kami menyahkod kandungan HTML halaman web menggunakan pengekodan "utf-8" dan menyimpannya dalam pembolehubah "html_content". Kami mentakrifkan corak ungkapan biasa untuk memadankan teg tajuk halaman web.

Kami menggunakan kaedah "carian" corak ungkapan biasa untuk mencari kejadian pertama corak itu dalam kandungan HTML halaman web. Kami menggunakan kaedah "kumpulan(1)" untuk mengekstrak kandungan rentetan kumpulan padanan pertama dan menyimpannya dalam pembolehubah "tajuk". Kemudian kami mencetak tajuk halaman web ke konsol.

import requests

url = 'https://www.wikipedia.org/'
response = requests.get(url)
html_content = response.content.decode('utf-8')

title_pattern = re.compile('(.+?)')
match = title_pattern.search(html_content)
title = match.group(1)

print(title)

Salin selepas log masuk

Output

Wikipedia

Salin selepas log masuk

KESIMPULAN

Dalam artikel ini, kami membincangkan proses mengekstrak tajuk daripada halaman web menggunakan permintaan dan perpustakaan Beautiful Soup dalam Python. Pustaka permintaan digunakan untuk menghantar permintaan HTTP ke URL tapak web dan mendapatkan kandungan HTML sebagai tindak balas. Pustaka Beautiful Soup kemudiannya digunakan untuk menghuraikan kandungan HTML dan mengekstrak pengepala yang diperlukan daripada kandungan HTML.

Atas ialah kandungan terperinci Ekstrak tajuk dari halaman web menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7322

Tutorial Java

1625

Tutorial CakePHP

1350

Tutorial Laravel

1262

Tutorial PHP

1209

Tunjukkan Lagi

Related knowledge

Bagaimana untuk mengintegrasikan perkhidmatan Node.js atau Python dengan cekap di bawah seni bina lampu? Apr 01, 2025 pm 02:48 PM

Ramai pemaju laman web menghadapi masalah mengintegrasikan perkhidmatan node.js atau python di bawah seni bina lampu: lampu sedia ada (Linux Apache MySQL PHP) Laman web seni bina memerlukan ...

Apakah sebabnya mengapa fail penyimpanan berterusan saluran paip tidak dapat ditulis apabila menggunakan crawler scapy? Apr 01, 2025 pm 04:03 PM

Apabila menggunakan crawler scapy, sebab mengapa fail penyimpanan berterusan paip tidak boleh ditulis? Perbincangan Ketika belajar menggunakan Crawler Scapy untuk Crawler Data, anda sering menemui ...

Bagaimana untuk menyelesaikan masalah kebenaran yang dihadapi semasa melihat versi Python di Terminal Linux? Apr 01, 2025 pm 05:09 PM

Penyelesaian kepada Isu Kebenaran Semasa Melihat Versi Python di Terminal Linux Apabila anda cuba melihat versi Python di Terminal Linux, masukkan Python ...

Bagaimana cara menyalin seluruh lajur satu data ke dalam data data lain dengan struktur yang berbeza di Python? Apr 01, 2025 pm 11:15 PM

Apabila menggunakan Perpustakaan Pandas Python, bagaimana untuk menyalin seluruh lajur antara dua data data dengan struktur yang berbeza adalah masalah biasa. Katakan kita mempunyai dua DAT ...

Apakah sebabnya mengapa Pool Proses Python mengendalikan permintaan TCP serentak dan menyebabkan pelanggan terjebak? Apr 01, 2025 pm 04:09 PM

Proses Python Pool mengendalikan permintaan TCP serentak yang menyebabkan pelanggan terjebak. Apabila menggunakan Python untuk pengaturcaraan rangkaian, adalah penting untuk mengendalikan permintaan TCP serentak dengan cekap. …

Bagaimana untuk melihat fungsi asal yang terkandung secara dalaman oleh python funcools.partial Object? Apr 01, 2025 pm 04:15 PM

Sangat meneroka kaedah tontonan python funcools.partial Object in Funcools.Partial Menggunakan Python ...

Pembangunan Aplikasi Desktop Cross-Platform Python: Perpustakaan GUI mana yang terbaik untuk anda? Apr 01, 2025 pm 05:24 PM

Pilihan Perpustakaan Pembangunan Aplikasi Desktop Python Python Banyak pemaju Python ingin membangunkan aplikasi desktop yang boleh dijalankan pada kedua-dua sistem Windows dan Linux ...

Python Hourglass Graph Lukisan: Bagaimana untuk mengelakkan kesilapan yang tidak ditentukan? Apr 01, 2025 pm 06:27 PM

Bermula dengan Python: Lukisan Grafik Hourglass dan Pengesahan Input Artikel ini akan menyelesaikan masalah definisi berubah -ubah yang dihadapi oleh pemula python dalam program lukisan grafik Hourglass. Kod ...

See all articles