Python에서 urllib2.urlopen(request)과 같은 정적 메서드를 사용할 때 웹 페이지에서 동적 콘텐츠를 스크랩하는 것이 어려울 수 있습니다. . 이러한 콘텐츠는 페이지에 포함된 JavaScript에 의해 생성되고 실행되는 경우가 많습니다.
이 문제를 해결하는 한 가지 접근 방식은 Phantom JS와 함께 Selenium 프레임워크를 웹 드라이버로 활용하는 것입니다. Phantom JS가 설치되어 있고 해당 바이너리가 현재 경로에서 사용 가능한지 확인하세요.
설명할 예는 다음과 같습니다.
import requests from bs4 import BeautifulSoup response = requests.get(my_url) soup = BeautifulSoup(response.text) soup.find(id="intro-text") # Result: <p>
이 코드는 JavaScript 지원 없이 페이지를 검색합니다. JS 지원으로 스크래핑하려면 Selenium을 사용하세요.
from selenium import webdriver driver = webdriver.PhantomJS() driver.get(my_url) p_element = driver.find_element_by_id(id_='intro-text') print(p_element.text) # Result: 'Yay! Supports javascript'
또는 dryscrape와 같이 JavaScript 기반 웹사이트 스크래핑을 위해 특별히 설계된 Python 라이브러리를 활용할 수도 있습니다.
import dryscrape from bs4 import BeautifulSoup session = dryscrape.Session() session.visit(my_url) response = session.body() soup = BeautifulSoup(response) soup.find(id="intro-text") # Result: <p>
위 내용은 Python에서 동적 JavaScript로 렌더링된 콘텐츠를 스크랩하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!