서문
이 기사의 주요 지식 포인트는 Python의 BeautifulSoup
을 사용하여 다층 순회를 수행한다는 것입니다.
사진과 같습니다. 내부에 숨겨진 것을 크롤링하는 것이 아닌 간단한 해킹입니다.
예제 코드
from bs4 import BeautifulSoup as bs import requests headers = { "host": "www.jd.com", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8" } session = requests.session() def get_url(): renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser') for i in renspned.find("p", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}): print(i.get_text(),':',i.get('href')) get_url()
이 코드를 실행하여 목적을 달성하세요.
이 코드를 해석해 보겠습니다.
먼저 JD.com 홈페이지에 접속해야 합니다.
그런 다음 BeautifulSoup
을 사용하여 방문한 홈페이지를 구문 분석합니다.
이때 필요한 것을 얻으려면 요소를 찾아야 합니다.
브라우저에서 F12
하면 아래 그림과 같은 내용을 볼 수 있습니다.
이 문장 코드를 살펴보겠습니다.
for i in renspned.find("p", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})
이 코드 줄은 먼저 find
메서드를 사용하여 "class=“dd-inner
"의 p를 찾은 다음 다음을 사용합니다. find_all
이 태그 아래의 모든 태그
마지막으로 모든 제품 카테고리와 해당 링크를 인쇄하고 싶어서 마침내 i.get_text()
및 i.get('href')
메소드를 사용하여 제품 카테고리를 얻었습니다. 및 해당 링크. 여기에서는
Python 크롤링 JD.com의 제품 카테고리와 링크에 대한 더 많은 기사를 보려면 PHP 중국어 웹사이트를 팔로우하세요!