Python으로 Taobao 제품 데이터를 크롤링하는 방법
이번 주요 목적은 타오바오 검색 페이지에서 상품 정보를 얻는 것입니다. 실제로 페이지를 분석하면 정보를 쉽게 찾을 수 있습니다. 페이지 정보는 페이지에 직접 중첩되어 정적으로 저장되므로 찾기가 쉽습니다. 가장 큰 어려움은 HTML 소스 코드에서 정보를 분리하는 것입니다. 데이터와 웹 페이지 소스 코드가 밀접하게 통합되어 있으므로 데이터를 분리하기가 어렵습니다.
그런 다음 얻은 정보를 Excel 테이블에 작성하고 저장합니다. 이번에는 처음 10페이지의 내용만 크롤링되었습니다.
코드는 다음과 같습니다.
import requests import re from xlwt import Workbook import xlrd import time def key_name( number ): #获取页面的内容并返回 name = '手机' URL_1 = "https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20170905&stats_click=search_radio_all%3A1&js=1&imgfile=&q=" URL_2 = "&suggest=0_1&_input_charset=utf-8&wq=u&suggest_query=u&source=suggest&p4ppushleft=5%2C48&s=" URL = ( URL_1 + name + URL_2 + str(number)) #print(URL) res = requests.get( URL ) return res.text def find_date( text): #根据整个页面的信息,获取商品的数据所在的HTML源码并放回 reg = r',"data":{"spus":\[({.+?)\]}},"header":' reg = re.compile(reg) info = re.findall(reg, text) return info[0] def manipulation_data( info, N, sheet ): #解析获取的HTML源码,获取数据 Date = eval(info) for d in Date: T = " ".join([t['tag'] for t in d['tag_info']]) #print(d['title'] + '\t' + d['price'] + '\t' + d['importantKey'][0:len(d['importantKey'])-1] + '\t' + T) sheet.write(N,0,d['title']) sheet.write(N,1,d['price']) sheet.write(N,2,T) N = N + 1 return N def main(): book = Workbook() sheet = book.add_sheet('淘宝手机数据') sheet.write(0,0,'品牌') sheet.write(0,1,'价格') sheet.write(0,2,'配置') book.save('淘宝手机数据.xls') #k用于生成链接,每个链接的最后面的数字相差48. #N用于记录表格的数据行数,便于写入数据 k = 0 N = 1 for i in range(10+1): text = key_name( k + i * 48 ) info = find_date(text) N = manipulation_data( info ,N, sheet ) book.save('淘宝手机数据.xls') print('下载第' + str(i) + '页完成') if __name__ == '__main__': main()
더 많은 Python 관련 기술 기사를 보려면 Python Tutorial 칼럼을 방문하여 알아보세요!
위 내용은 Python으로 Taobao 제품 데이터를 크롤링하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

Uvicorn은 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 ASGI를 기반으로 한 가벼운 웹 서버입니다. 핵심 기능 중 하나는 HTTP 요청을 듣고 진행하는 것입니다 ...

Linux 터미널에서 Python 사용 ...

Investing.com의 크롤링 전략 이해 많은 사람들이 종종 Investing.com (https://cn.investing.com/news/latest-news)에서 뉴스 데이터를 크롤링하려고합니다.
