Jadual Kandungan
6 Merangkak kod halaman web Jangan kerap mengendalikannya, apatah lagi menetapkannya kepada mod gelung tak terhingga (setiap merangkak adalah akses kepada halaman web, operasi yang kerap akan menyebabkan sistem ranap, dan anda akan dipertanggungjawabkan di sisi undang-undang).
Rumah pembangunan bahagian belakang Tutorial Python Perangkak Python merangkak data halaman web dan menghuraikan data

Perangkak Python merangkak data halaman web dan menghuraikan data

Aug 15, 2022 pm 06:25 PM
python

Artikel ini membawakan anda pengetahuan yang berkaitan tentang Python terutamanya cara perangkak ular sawa merangkak data halaman web dan menghuraikan data untuk membantu anda menggunakan perangkak dengan lebih baik untuk menganalisis halaman web lihat, harap ia membantu semua orang.

Perangkak Python merangkak data halaman web dan menghuraikan data

[Cadangan berkaitan: Tutorial video Python3]

1 >Perangkak web (juga dikenali sebagai labah-labah web dan robot) mensimulasikan pelanggan menghantar permintaan rangkaian dan menerima respons permintaan Ia adalah program yang menangkap maklumat Internet secara automatik mengikut peraturan tertentu.

Selagi pelayar boleh melakukan apa sahaja, pada dasarnya, perangkak boleh melakukannya.


2. Fungsi perangkak web

Perangkak web boleh menggantikan kerja manual dalam melakukan banyak perkara, seperti enjin carian Anda boleh juga merangkak gambar di laman web Sebagai contoh, sesetengah rakan merangkak semua gambar di laman web tertentu dan melayarinya bersama-sama Pada masa yang sama, perayap web juga boleh digunakan dalam bidang pelaburan kewangan maklumat kewangan dan Menjalankan analisis pelaburan, dsb.

Kadangkala, kami mungkin mempunyai beberapa laman web berita kegemaran, dan menyusahkan untuk membuka tapak web berita ini secara berasingan setiap kali untuk menyemak imbas. Pada masa ini, anda boleh menggunakan perangkak web untuk merangkak maklumat berita daripada berbilang tapak web berita ini dan membacanya bersama-sama.

Kadangkala, apabila kita menyemak imbas maklumat di web, kita akan dapati banyak iklan. Pada masa ini, anda juga boleh menggunakan perangkak untuk merangkak maklumat pada halaman web yang sepadan, supaya iklan ini boleh ditapis secara automatik untuk memudahkan pembacaan dan penggunaan maklumat.

Kadangkala, kita perlu melakukan pemasaran, jadi cara mencari pelanggan sasaran dan maklumat hubungan mereka adalah isu utama. Kami boleh mencari secara manual di Internet, tetapi ini akan menjadi sangat tidak cekap. Pada masa ini, kami boleh menggunakan perangkak untuk menetapkan peraturan yang sepadan dan secara automatik mengumpulkan maklumat hubungan pengguna sasaran dan data lain daripada Internet untuk kegunaan pemasaran kami.

Kadangkala, kami ingin menganalisis maklumat pengguna tapak web tertentu, seperti menganalisis aktiviti pengguna, bilangan komen, artikel popular dan maklumat lain laman web tersebut. Jika kami bukan pentadbir laman web, statistik manual akan menjadi satu projek yang sangat sukar. Pada masa ini, perangkak boleh digunakan untuk mengumpul data ini dengan mudah untuk analisis lanjut Semua operasi merangkak dilakukan secara automatik. Kami hanya perlu menulis perangkak yang sepadan dan mereka bentuk peraturan yang sepadan.

Selain itu, perangkak juga boleh mencapai banyak fungsi berkuasa. Ringkasnya, kemunculan crawler boleh menggantikan capaian manual ke halaman web pada tahap tertentu Oleh itu, operasi yang sebelum ini memerlukan capaian manual kepada maklumat Internet kini boleh diautomasikan menggunakan crawler, supaya maklumat yang berkesan dalam Internet dapat digunakan dengan lebih cekap. .

3. Pasang pustaka pihak ketiga

Sebelum merangkak dan menghuraikan data, anda perlu memuat turun dan memasang permintaan perpustakaan pihak ketiga dalam persekitaran berjalan Python.

Dalam sistem Windows, buka antara muka cmd (command prompt), masukkan permintaan pemasangan pip dalam antara muka, dan tekan Enter untuk memasang. (Beri perhatian kepada sambungan rangkaian) Seperti yang ditunjukkan di bawah

Pemasangan selesai, seperti yang ditunjukkan dalam rajah

4. Crawl Taobao Homepage

Hasil larian adalah seperti yang ditunjukkan dalam rajah
# 请求库
import requests
# 用于解决爬取的数据格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的网页链接
r= requests.get("https://www.taobao.com/")
# 类型
# print(type(r))
print(r.status_code)
# 中文显示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text
Salin selepas log masuk

5. Merangkak dan menghuraikan laman utama Taobao

Hasil operasi adalah seperti yang ditunjukkan dalam rajah
# 请求库
import requests
# 解析库
from bs4 import BeautifulSoup
# 用于解决爬取的数据格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的网页链接
r= requests.get("https://www.taobao.com/")
# 类型
# print(type(r))
print(r.status_code)
# 中文显示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text
# 再次封装,获取具体标签内的内容
bs = BeautifulSoup(result,'html.parser')
# 具体标签
print("解析后的数据")
print(bs.span)
a={}
# 获取已爬取内容中的script标签内容
data=bs.find_all('script')
# 获取已爬取内容中的td标签内容
data1=bs.find_all('td')
# 循环打印输出
for i in data:
 a=i.text
 print(i.text,end='')
 for j in data1:
  print(j.text)
Salin selepas log masuk

Ringkasan

6 Merangkak kod halaman web Jangan kerap mengendalikannya, apatah lagi menetapkannya kepada mod gelung tak terhingga (setiap merangkak adalah akses kepada halaman web, operasi yang kerap akan menyebabkan sistem ranap, dan anda akan dipertanggungjawabkan di sisi undang-undang).

Jadi selepas mendapat data halaman web, simpannya sebagai mod teks setempat dan kemudian huraikannya (tidak perlu mengakses halaman web lagi).

[Cadangan berkaitan:

Tutorial video Python3

]

Atas ialah kandungan terperinci Perangkak Python merangkak data halaman web dan menghuraikan data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimanakah Feathering PS mengawal kelembutan peralihan? Bagaimanakah Feathering PS mengawal kelembutan peralihan? Apr 06, 2025 pm 07:33 PM

Kunci kawalan bulu adalah memahami sifatnya secara beransur -ansur. PS sendiri tidak menyediakan pilihan untuk mengawal lengkung kecerunan secara langsung, tetapi anda boleh melaraskan radius dan kelembutan kecerunan dengan pelbagai bulu, topeng yang sepadan, dan pilihan halus untuk mencapai kesan peralihan semula jadi.

Cara Menggunakan MySQL Selepas Pemasangan Cara Menggunakan MySQL Selepas Pemasangan Apr 08, 2025 am 11:48 AM

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Adakah Mysql perlu membayar Adakah Mysql perlu membayar Apr 08, 2025 pm 05:36 PM

MySQL mempunyai versi komuniti percuma dan versi perusahaan berbayar. Versi komuniti boleh digunakan dan diubahsuai secara percuma, tetapi sokongannya terhad dan sesuai untuk aplikasi dengan keperluan kestabilan yang rendah dan keupayaan teknikal yang kuat. Edisi Enterprise menyediakan sokongan komersil yang komprehensif untuk aplikasi yang memerlukan pangkalan data yang stabil, boleh dipercayai, berprestasi tinggi dan bersedia membayar sokongan. Faktor yang dipertimbangkan apabila memilih versi termasuk kritikal aplikasi, belanjawan, dan kemahiran teknikal. Tidak ada pilihan yang sempurna, hanya pilihan yang paling sesuai, dan anda perlu memilih dengan teliti mengikut keadaan tertentu.

Bagaimana cara menyediakan bulu ps? Bagaimana cara menyediakan bulu ps? Apr 06, 2025 pm 07:36 PM

PS Feathering adalah kesan kabur tepi imej, yang dicapai dengan purata piksel berwajaran di kawasan tepi. Menetapkan jejari bulu dapat mengawal tahap kabur, dan semakin besar nilai, semakin kaburnya. Pelarasan fleksibel radius dapat mengoptimumkan kesan mengikut imej dan keperluan. Sebagai contoh, menggunakan jejari yang lebih kecil untuk mengekalkan butiran apabila memproses foto watak, dan menggunakan radius yang lebih besar untuk mewujudkan perasaan kabur ketika memproses karya seni. Walau bagaimanapun, perlu diperhatikan bahawa terlalu besar jejari boleh dengan mudah kehilangan butiran kelebihan, dan terlalu kecil kesannya tidak akan jelas. Kesan bulu dipengaruhi oleh resolusi imej dan perlu diselaraskan mengikut pemahaman imej dan kesan genggaman.

Cara mengoptimumkan prestasi pangkalan data selepas pemasangan MySQL Cara mengoptimumkan prestasi pangkalan data selepas pemasangan MySQL Apr 08, 2025 am 11:36 AM

Pengoptimuman prestasi MySQL perlu bermula dari tiga aspek: konfigurasi pemasangan, pengindeksan dan pengoptimuman pertanyaan, pemantauan dan penalaan. 1. Selepas pemasangan, anda perlu menyesuaikan fail my.cnf mengikut konfigurasi pelayan, seperti parameter innodb_buffer_pool_size, dan tutup query_cache_size; 2. Buat indeks yang sesuai untuk mengelakkan indeks yang berlebihan, dan mengoptimumkan pernyataan pertanyaan, seperti menggunakan perintah menjelaskan untuk menganalisis pelan pelaksanaan; 3. Gunakan alat pemantauan MySQL sendiri (ShowProcessList, ShowStatus) untuk memantau kesihatan pangkalan data, dan kerap membuat semula dan mengatur pangkalan data. Hanya dengan terus mengoptimumkan langkah -langkah ini, prestasi pangkalan data MySQL diperbaiki.

Bagaimana untuk mengoptimumkan prestasi MySQL untuk aplikasi beban tinggi? Bagaimana untuk mengoptimumkan prestasi MySQL untuk aplikasi beban tinggi? Apr 08, 2025 pm 06:03 PM

Panduan Pengoptimuman Prestasi Pangkalan Data MySQL Dalam aplikasi yang berintensifkan sumber, pangkalan data MySQL memainkan peranan penting dan bertanggungjawab untuk menguruskan urus niaga besar-besaran. Walau bagaimanapun, apabila skala aplikasi berkembang, kemunculan prestasi pangkalan data sering menjadi kekangan. Artikel ini akan meneroka satu siri strategi pengoptimuman prestasi MySQL yang berkesan untuk memastikan aplikasi anda tetap cekap dan responsif di bawah beban tinggi. Kami akan menggabungkan kes-kes sebenar untuk menerangkan teknologi utama yang mendalam seperti pengindeksan, pengoptimuman pertanyaan, reka bentuk pangkalan data dan caching. 1. Reka bentuk seni bina pangkalan data dan seni bina pangkalan data yang dioptimumkan adalah asas pengoptimuman prestasi MySQL. Berikut adalah beberapa prinsip teras: Memilih jenis data yang betul dan memilih jenis data terkecil yang memenuhi keperluan bukan sahaja dapat menjimatkan ruang penyimpanan, tetapi juga meningkatkan kelajuan pemprosesan data.

Penyelesaian kepada perkhidmatan yang tidak dapat dimulakan selepas pemasangan MySQL Penyelesaian kepada perkhidmatan yang tidak dapat dimulakan selepas pemasangan MySQL Apr 08, 2025 am 11:18 AM

MySQL enggan memulakan? Jangan panik, mari kita periksa! Ramai kawan mendapati bahawa perkhidmatan itu tidak dapat dimulakan selepas memasang MySQL, dan mereka sangat cemas! Jangan risau, artikel ini akan membawa anda untuk menangani dengan tenang dan mengetahui dalang di belakangnya! Selepas membacanya, anda bukan sahaja dapat menyelesaikan masalah ini, tetapi juga meningkatkan pemahaman anda tentang perkhidmatan MySQL dan idea anda untuk masalah penyelesaian masalah, dan menjadi pentadbir pangkalan data yang lebih kuat! Perkhidmatan MySQL gagal bermula, dan terdapat banyak sebab, mulai dari kesilapan konfigurasi mudah kepada masalah sistem yang kompleks. Mari kita mulakan dengan aspek yang paling biasa. Pengetahuan asas: Penerangan ringkas mengenai proses permulaan perkhidmatan MySQL Startup. Ringkasnya, sistem operasi memuatkan fail yang berkaitan dengan MySQL dan kemudian memulakan daemon MySQL. Ini melibatkan konfigurasi

Mysql tidak dapat dipasang setelah memuat turun Mysql tidak dapat dipasang setelah memuat turun Apr 08, 2025 am 11:24 AM

Sebab utama kegagalan pemasangan MySQL adalah: 1. Isu kebenaran, anda perlu menjalankan sebagai pentadbir atau menggunakan perintah sudo; 2. Ketergantungan hilang, dan anda perlu memasang pakej pembangunan yang relevan; 3. Konflik pelabuhan, anda perlu menutup program yang menduduki port 3306 atau mengubah suai fail konfigurasi; 4. Pakej pemasangan adalah korup, anda perlu memuat turun dan mengesahkan integriti; 5. Pembolehubah persekitaran dikonfigurasikan dengan salah, dan pembolehubah persekitaran mesti dikonfigurasi dengan betul mengikut sistem operasi. Selesaikan masalah ini dan periksa dengan teliti setiap langkah untuk berjaya memasang MySQL.

See all articles