Rumah pembangunan bahagian belakang Tutorial Python Cara menggunakan modul beautifulsoup untuk menghuraikan halaman web dalam Python 2.x

Cara menggunakan modul beautifulsoup untuk menghuraikan halaman web dalam Python 2.x

Jul 30, 2023 pm 02:09 PM
beautifulsoup Analisis laman web python x

Cara menggunakan modul beautifulsoup untuk penghuraian halaman web dalam Python 2.x

Ikhtisar:
Dalam pembangunan web dan merangkak data, kita selalunya perlu menghuraikan halaman web dan mengekstrak maklumat khusus. Python ialah bahasa pengaturcaraan yang mudah dan pantas, dan modul beautifulsoupnya boleh membantu kami mencapai tugas menghurai halaman web. Artikel ini akan memperkenalkan cara menggunakan modul beautifulsoup untuk menghuraikan halaman web dalam versi Python 2.x dan menyediakan beberapa contoh kod.

1. Pasang modul beautifulsoup:
Pertama, kita perlu memasang modul beautifulsoup dalam persekitaran Python. Anda boleh menggunakan arahan berikut untuk memasangnya melalui pip:

pip install beautifulsoup4
Salin selepas log masuk

Selepas pemasangan selesai, kita boleh mula menggunakan beautifulsoup untuk menghuraikan halaman web.

2. Import modul yang diperlukan:
Sebelum mula menggunakan beautifulsoup, kita perlu mengimport beberapa modul yang diperlukan. Dalam Python, kami biasanya menggunakan modul urllib atau requests untuk mendapatkan kod HTML halaman web. Dalam artikel ini, kami akan menggunakan modul urllib untuk membuat permintaan halaman web dan mengimport kelas BeautifulSoup untuk menggunakan modul beautifulsoup. urllib或者requests模块来获取网页的HTML代码。在本文中,我们将使用urllib模块来进行网页请求,并且导入BeautifulSoup类来使用beautifulsoup模块。

from urllib import urlopen
from bs4 import BeautifulSoup
Salin selepas log masuk

三、网页解析:
我们可以使用beautifulsoup模块的BeautifulSoup类来解析网页。首先,我们需要获取网页的HTML代码。下面的代码示例展示了如何使用urllib模块来获取网页的HTML代码,并使用BeautifulSoup类进行解析。

# 获取网页HTML代码
url = "http://example.com"
html = urlopen(url).read()

# 创建BeautifulSoup对象
soup = BeautifulSoup(html, "html.parser")
Salin selepas log masuk

在上面的代码中,我们首先使用urlopen函数来获取网页的HTML代码,然后将获取到的HTML代码传递给BeautifulSoup类的构造函数,从而创建一个BeautifulSoup对象。

四、提取网页内容:
一旦我们创建了BeautifulSoup对象,就可以使用它提供的方法来提取网页中的内容。下面的代码示例展示了如何使用beautifulsoup模块提取网页标题和所有链接的文本。

# 提取网页标题
title = soup.title.string
print("网页标题:", title)

# 提取所有链接的文本
links = soup.find_all('a')
for link in links:
    print(link.text)
Salin selepas log masuk

在上面的代码中,soup.title.string用于提取网页的标题文本,soup.find_all('a')用于查找网页中的所有链接,并使用循环逐个打印链接的文本。

五、使用CSS选择器:
BeautifulSoup还提供了一种使用CSS选择器进行网页元素提取的方法。下面的代码示例展示了如何使用CSS选择器提取网页中的元素。

# 使用CSS选择器提取所有段落文本
paragraphs = soup.select('p')
for paragraph in paragraphs:
    print(paragraph.text)

# 使用CSS选择器提取id为"content"的元素文本
content = soup.select('#content')
print(content[0].text)
Salin selepas log masuk

在上面的代码中,soup.select('p')用于提取所有段落文本,soup.select('#content')用于提取id为"content"的元素文本。需要注意的是,返回的结果是一个列表,我们可以通过[0]rrreee

3. Penghuraian halaman web:

Kami boleh menggunakan kelas BeautifulSoup modul beautifulsoup untuk menghuraikan halaman web. Pertama, kita perlu mendapatkan kod HTML halaman web. Contoh kod berikut menunjukkan cara menggunakan modul urllib untuk mendapatkan kod HTML halaman web dan menghuraikannya menggunakan kelas BeautifulSoup.
rrreee

Dalam kod di atas, kami mula-mula menggunakan fungsi urlopen untuk mendapatkan kod HTML halaman web, dan kemudian hantar kod HTML yang diperoleh kepada pembina kelas BeautifulSoup untuk mencipta objek BeautifulSoup . 🎜🎜4. Ekstrak kandungan halaman web: 🎜Sebaik sahaja kami mencipta objek BeautifulSoup, kami boleh menggunakan kaedah yang disediakan untuk mengekstrak kandungan halaman web. Contoh kod di bawah menunjukkan cara menggunakan modul beautifulsoup untuk mengekstrak tajuk halaman web dan teks semua pautan. 🎜rrreee🎜Dalam kod di atas, soup.title.string digunakan untuk mengekstrak teks tajuk halaman web dan soup.find_all('a') digunakan untuk mencari teks tajuk dalam halaman web dan mencetak teks pautan satu demi satu menggunakan gelung. 🎜🎜5. Gunakan pemilih CSS: 🎜BeautifulSoup juga menyediakan kaedah untuk menggunakan pemilih CSS untuk mengekstrak elemen halaman web. Contoh kod di bawah menunjukkan cara menggunakan pemilih CSS untuk mengekstrak elemen daripada halaman web. 🎜rrreee🎜Dalam kod di atas, soup.select('p') digunakan untuk mengekstrak semua teks perenggan dan soup.select('#content') digunakan untuk mengekstrak teks elemen dengan id "kandungan". Perlu diingatkan bahawa hasil yang dikembalikan ialah senarai, dan kita boleh mendapatkan elemen pertama dalam senarai melalui [0]. 🎜🎜Ringkasan: 🎜Artikel ini memperkenalkan cara menggunakan modul beautifulsoup untuk penghuraian halaman web dalam versi Python 2.x. Dengan mengimport modul yang diperlukan, menghuraikan halaman web, mengekstrak kandungan halaman web dan langkah-langkah lain, kami boleh dengan mudah merealisasikan tugas penghuraian halaman web. Dengan menggunakan modul beautifulsoup, kami boleh memproses data halaman web dengan lebih cekap. Dalam aplikasi praktikal, kita boleh menggunakan kaedah dan teknik yang sesuai untuk mengekstrak maklumat yang diperlukan mengikut keperluan. 🎜

Atas ialah kandungan terperinci Cara menggunakan modul beautifulsoup untuk menghuraikan halaman web dalam Python 2.x. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Muat turun fail PDF menggunakan Permintaan Python dan BeautifulSoup Muat turun fail PDF menggunakan Permintaan Python dan BeautifulSoup Aug 30, 2023 pm 03:25 PM

Request dan BeautifulSoup ialah perpustakaan Python yang boleh memuat turun sebarang fail atau PDF dalam talian. Pustaka permintaan digunakan untuk menghantar permintaan HTTP dan menerima respons. Pustaka BeautifulSoup digunakan untuk menghuraikan HTML yang diterima dalam respons dan mendapatkan pautan pdf yang boleh dimuat turun. Dalam artikel ini, kita akan belajar cara memuat turun PDF menggunakan Request dan BeautifulSoup dalam Python. Pasang kebergantungan Sebelum menggunakan perpustakaan BeautifulSoup dan Request dalam Python, kita perlu memasang perpustakaan ini dalam sistem menggunakan arahan pip. Untuk memasang permintaan dan perpustakaan BeautifulSoup dan Request,

Cara menggunakan fungsi urllib.parse.unquote() untuk menyahkod URL dalam Python 3.x Cara menggunakan fungsi urllib.parse.unquote() untuk menyahkod URL dalam Python 3.x Aug 02, 2023 pm 02:25 PM

Cara menggunakan fungsi urllib.parse.unquote() untuk menyahkod URL dalam Python 3.x Dalam perpustakaan urllib Python, modul urllib.parse menyediakan satu siri fungsi alat untuk pengekodan dan penyahkodan URL, antaranya urllib.parse.unquote. () Fungsi boleh digunakan untuk menyahkod URL. Artikel ini akan memperkenalkan cara menggunakan urllib.parse.un

Cara menggunakan fungsi join() dalam Python 2.x untuk menggabungkan senarai rentetan menjadi satu rentetan Cara menggunakan fungsi join() dalam Python 2.x untuk menggabungkan senarai rentetan menjadi satu rentetan Jul 30, 2023 am 08:36 AM

Cara menggunakan fungsi join() dalam Python2.x untuk menggabungkan senarai rentetan menjadi satu rentetan Dalam Python, kita selalunya perlu menggabungkan berbilang rentetan menjadi satu rentetan. Python menyediakan pelbagai cara untuk mencapai matlamat ini, salah satu cara biasa ialah menggunakan fungsi join(). Fungsi join() boleh menggabungkan senarai rentetan ke dalam rentetan, dan boleh menentukan pembatas apabila menggabungkan. Sintaks asas untuk menggunakan fungsi join() adalah seperti berikut: &

Cara menggunakan modul matematik untuk melaksanakan operasi matematik dalam Python 3.x Cara menggunakan modul matematik untuk melaksanakan operasi matematik dalam Python 3.x Aug 01, 2023 pm 03:15 PM

Cara menggunakan modul matematik untuk melaksanakan operasi matematik dalam Python 3.x Pengenalan: Dalam pengaturcaraan Python, melaksanakan operasi matematik adalah keperluan biasa. Untuk memudahkan pemprosesan operasi matematik, Python menyediakan perpustakaan matematik, yang mengandungi banyak fungsi dan pemalar untuk pengiraan matematik dan fungsi matematik. Artikel ini akan memperkenalkan cara menggunakan modul matematik untuk melaksanakan operasi matematik biasa dan menyediakan contoh kod yang sepadan. 1. Penambahan operasi matematik asas dilakukan menggunakan fungsi math.add() dalam modul matematik.

Cara menggunakan Padanan Pola untuk padanan corak jenis dalam Java 14 Cara menggunakan Padanan Pola untuk padanan corak jenis dalam Java 14 Jul 31, 2023 pm 12:01 PM

Cara menggunakan PatternMatching untuk padanan corak jenis dalam Java14 Pengenalan: Java14 memperkenalkan ciri baharu, PatternMatching, yang merupakan alat berkuasa yang boleh digunakan untuk padanan corak jenis pada masa penyusunan. Artikel ini akan memperkenalkan cara menggunakan PatternMatching untuk jenis padanan corak dalam Java14 dan memberikan contoh kod. Fahami konsep PatternMatchingPattern

Cara menggunakan modul os untuk melaksanakan perintah sistem dalam Python 3.x Cara menggunakan modul os untuk melaksanakan perintah sistem dalam Python 3.x Jul 31, 2023 pm 12:19 PM

Cara menggunakan modul os untuk melaksanakan perintah sistem dalam Python3.x Dalam perpustakaan standard Python3.x, modul os menyediakan satu siri kaedah untuk melaksanakan arahan sistem. Dalam artikel ini, kita akan belajar cara menggunakan modul os untuk melaksanakan arahan sistem dan memberikan contoh kod yang sepadan. Modul os dalam Python ialah antara muka untuk berinteraksi dengan sistem pengendalian. Ia menyediakan kaedah seperti melaksanakan perintah sistem, mengakses fail dan direktori, dsb. Berikut adalah beberapa kaedah modul os yang biasa digunakan, yang boleh digunakan untuk melaksanakan arahan sistem.

Cara menggunakan fungsi write() untuk menulis kandungan pada fail dalam Python 2.x Cara menggunakan fungsi write() untuk menulis kandungan pada fail dalam Python 2.x Jul 30, 2023 am 08:37 AM

Cara menggunakan fungsi write() untuk menulis kandungan pada fail dalam Python2.x Dalam Python2.x, kita boleh menggunakan fungsi write() untuk menulis kandungan pada fail. Fungsi write() ialah salah satu kaedah objek fail dan boleh digunakan untuk menulis rentetan atau data binari pada fail. Dalam artikel ini, saya akan menerangkan secara terperinci cara menggunakan fungsi write() dan beberapa kes penggunaan biasa. Buka fail Sebelum menulis ke fail menggunakan fungsi write(), I

Cara menggunakan fungsi urllib.quote() untuk mengekod URL dalam Python 2.x Cara menggunakan fungsi urllib.quote() untuk mengekod URL dalam Python 2.x Jul 31, 2023 pm 08:37 PM

Cara menggunakan fungsi urllib.quote() untuk mengekod URL dalam URL Python 2.x mengandungi pelbagai aksara, termasuk huruf, nombor, aksara khas, dsb. Untuk membolehkan URL dihantar dan dihuraikan dengan betul, kita perlu mengekodkan aksara khas di dalamnya. Dalam Python2.x, anda boleh menggunakan fungsi urllib.quote() untuk mengekod URL Mari perkenalkan penggunaannya secara terperinci di bawah. urllib.quote

See all articles