masyarakat

Belajar

Perpustakaan Alatan

Alat AI

Masa lapang

Melayu

Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana untuk mengikis laman web javascript dengan Python?

Bagaimana untuk mengikis laman web javascript dengan Python?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2024-02-10 15:40:04

ke hadapan

1281 orang telah melayarinya

如何用 Python 抓取 javascript 网站？

Kandungan soalan

Saya cuba merangkak tapak web. Saya telah mencuba menggunakan kedua-dua kaedah, tetapi tidak memberikan saya kod sumber tapak web penuh yang saya cari. Saya cuba mengikis tajuk berita dari url tapak web yang disediakan di bawah.

Laman web: "https://www.todayonline.com/"

Berikut adalah dua kaedah yang saya cuba dan gagal.

Kaedah 1: Sup Cantik

tdy_url = "https://www.todayonline.com/"
page = requests.get(tdy_url).text
soup = beautifulsoup(page)
soup  # returns me a html with javascript text
soup.find_all('h3')

### returns me empty list []

Salin selepas log masuk

Kaedah 2: selenium + beautifulsoup

tdy_url = "https://www.todayonline.com/"

options = Options()
options.headless = True

driver = webdriver.Chrome("chromedriver",options=options)

driver.get(tdy_url)
time.sleep(10)
html = driver.page_source

soup = BeautifulSoup(html)
soup.find_all('h3')

### Returns me only less than 1/4 of the 'h3' tags found in the original page source

Salin selepas log masuk

Tolong bantu. Saya telah cuba mengikis laman berita lain dan ini lebih mudah. Terima kasih.

Jawapan betul

Anda boleh mengakses data melalui api (lihat tab "Rangkaian"):

Sebagai contoh,

import requests
url = "https://www.todayonline.com/api/v3/news_feed/7"
data = requests.get(url).json()

Salin selepas log masuk

Atas ialah kandungan terperinci Bagaimana untuk mengikis laman web javascript dengan Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan：

webdriver

Artikel sebelumnya：AttributeError apabila membenamkan python dalam C++ (Ubuntu) Artikel seterusnya：Python BOT mengekstrak lajur panjang daripada helaian Excel dan cipta kerangka data untuk mengkatalogkan beberapa nombor daripada fail lain

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

Bagaimana LLMS Berfungsi: Pra-latihan ke Latihan Pasca, Rangkaian Neural, Hallucinations, dan Kesimpulan

2025-02-26 03:58:14
Saya menggabungkan blockchain dan AI untuk menjana seni. Di sini ’ s Apa yang berlaku seterusnya.

2025-02-26 03:38:10
Kejuruteraan Prompt Lanjutan: Rantai Pemikiran (COT)

2025-02-26 03:17:10
Pengambilan semula Generasi Tambahan di SQLite

2025-02-26 02:49:09
Cara menggunakan boilerplate berkuasa LLM untuk membina API Node.js anda sendiri

2025-02-26 01:08:13
LLMS untuk pengekodan pada tahun 2024: harga, prestasi, dan pertempuran untuk yang terbaik

2025-02-26 00:46:10
Mendorong model bahasa penglihatan

2025-02-25 23:42:08
Cara Mengukur Kebolehpercayaan Respons Model Bahasa Besar

2025-02-25 22:50:13
Ilusi hidup

2025-02-25 21:54:11
Para saintis serius mengenai model bahasa besar yang mencerminkan pemikiran manusia

2025-02-25 20:45:11

Isu terkini

Huraikan langkah -langkah yang terlibat dalam membina saluran paip pembelajaran mesin.

2025-03-27 19:34:19
Bagaimana anda boleh menggunakan python untuk penglihatan komputer?

2025-03-27 19:31:56
Terangkan konsep pembelajaran yang diawasi, pembelajaran tanpa pengawasan, dan pembelajaran tetulang.

2025-03-27 19:27:19
Huraikan pengalaman anda dengan perpustakaan pembelajaran mesin seperti Scikit-learn, tensorflow, atau pytorch.

2025-03-27 19:25:41
Terangkan pengalaman anda dengan bahasa skrip untuk automasi.

2025-03-27 19:24:28

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan