Saya cuba merangkak tapak web. Saya telah mencuba menggunakan kedua-dua kaedah, tetapi tidak memberikan saya kod sumber tapak web penuh yang saya cari. Saya cuba mengikis tajuk berita dari url tapak web yang disediakan di bawah.
Laman web: "https://www.todayonline.com/"
Berikut adalah dua kaedah yang saya cuba dan gagal.
tdy_url = "https://www.todayonline.com/" page = requests.get(tdy_url).text soup = beautifulsoup(page) soup # returns me a html with javascript text soup.find_all('h3') ### returns me empty list []
tdy_url = "https://www.todayonline.com/" options = Options() options.headless = True driver = webdriver.Chrome("chromedriver",options=options) driver.get(tdy_url) time.sleep(10) html = driver.page_source soup = BeautifulSoup(html) soup.find_all('h3') ### Returns me only less than 1/4 of the 'h3' tags found in the original page source
Tolong bantu. Saya telah cuba mengikis laman berita lain dan ini lebih mudah. Terima kasih.
Anda boleh mengakses data melalui api (lihat tab "Rangkaian"):
Sebagai contoh,
import requests url = "https://www.todayonline.com/api/v3/news_feed/7" data = requests.get(url).json()
Atas ialah kandungan terperinci Bagaimana untuk mengikis laman web javascript dengan Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!