> 웹 프론트엔드 > JS 튜토리얼 > Python에서 동적 JavaScript로 렌더링된 콘텐츠를 스크랩하는 방법은 무엇입니까?

Python에서 동적 JavaScript로 렌더링된 콘텐츠를 스크랩하는 방법은 무엇입니까?

DDD
풀어 주다: 2024-12-22 09:58:04
원래의
410명이 탐색했습니다.

How to Scrape Dynamic JavaScript-Rendered Content in Python?

Python에서 JavaScript로 생성된 동적 콘텐츠를 스크랩하는 방법

Python에서 urllib2.urlopen(request)과 같은 정적 메서드를 사용할 때 웹 페이지에서 동적 콘텐츠를 스크랩하는 것이 어려울 수 있습니다. . 이러한 콘텐츠는 페이지에 포함된 JavaScript에 의해 생성되고 실행되는 경우가 많습니다.

이 문제를 해결하는 한 가지 접근 방식은 Phantom JS와 함께 Selenium 프레임워크를 웹 드라이버로 활용하는 것입니다. Phantom JS가 설치되어 있고 해당 바이너리가 현재 경로에서 사용 가능한지 확인하세요.

설명할 예는 다음과 같습니다.

import requests
from bs4 import BeautifulSoup
response = requests.get(my_url)
soup = BeautifulSoup(response.text)
soup.find(id="intro-text") # Result: <p>
로그인 후 복사

이 코드는 JavaScript 지원 없이 페이지를 검색합니다. JS 지원으로 스크래핑하려면 Selenium을 사용하세요.

from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(my_url)
p_element = driver.find_element_by_id(id_='intro-text')
print(p_element.text) # Result: 'Yay! Supports javascript'
로그인 후 복사

또는 dryscrape와 같이 JavaScript 기반 웹사이트 스크래핑을 위해 특별히 설계된 Python 라이브러리를 활용할 수도 있습니다.

import dryscrape
from bs4 import BeautifulSoup
session = dryscrape.Session()
session.visit(my_url)
response = session.body()
soup = BeautifulSoup(response)
soup.find(id="intro-text") # Result: <p>
로그인 후 복사

위 내용은 Python에서 동적 JavaScript로 렌더링된 콘텐츠를 스크랩하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿