서문
이 기사의 주요 지식 포인트는 Python의 BeautifulSoup
을 사용하여 다층 순회를 수행한다는 것입니다.

사진과 같습니다. 내부에 숨겨진 것을 크롤링하는 것이 아닌 간단한 해킹입니다.
예제 코드
1 2 3 4 5 6 7 8 9 10 11 12 13 | from bs4 import BeautifulSoup as bs
import requests
headers = {
"host" : "www.jd.com" ,
"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400" ,
"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
}
session = requests.session()
def get_url():
renspned = bs(session.get('http:
for i in renspned.find( "p" , { "class" : "dd-inner" }).find_all( "a" ,{ "target" : "_blank" }):
print (i.get_text(),':',i.get('href'))
get_url()
|
로그인 후 복사
이 코드를 실행하여 목적을 달성하세요.

이 코드를 해석해 보겠습니다.
먼저 JD.com 홈페이지에 접속해야 합니다.
그런 다음 BeautifulSoup
을 사용하여 방문한 홈페이지를 구문 분석합니다.
이때 필요한 것을 얻으려면 요소를 찾아야 합니다.
브라우저에서 F12
하면 아래 그림과 같은 내용을 볼 수 있습니다.

이 문장 코드를 살펴보겠습니다.
1 | for i in renspned.find( "p" , { "class" : "dd-inner" }).find_all( "a" ,{ "target" : "_blank" })
|
로그인 후 복사
이 코드 줄은 먼저 find
메서드를 사용하여 "class=“dd-inner
"의 p를 찾은 다음 다음을 사용합니다. find_all
이 태그 아래의 모든 태그
마지막으로 모든 제품 카테고리와 해당 링크를 인쇄하고 싶어서 마침내 i.get_text()
및 i.get('href')
메소드를 사용하여 제품 카테고리를 얻었습니다. 및 해당 링크. 여기에서는
방법을 사용하여 다중 계층 순회를 수행할 수 있음을 알려드립니다. 위 내용은 Python을 사용하여 JD.com의 제품 카테고리와 링크를 크롤링한 경험 중 일부입니다. Python을 배우는 모든 사람에게 유용할 수 있습니다.
Python 크롤링 JD.com의 제품 카테고리와 링크에 대한 더 많은 기사를 보려면 PHP 중국어 웹사이트를 팔로우하세요!