셀레늄을 사용하여 Taobao 데이터 정보 캡처-JS 튜토리얼-php.cn

집

웹 프론트엔드

JS 튜토리얼

셀레늄을 사용하여 Taobao 데이터 정보 캡처

亚连

Jun 07, 2018 pm 03:20 PM

selenium 기다 타오바오

이제 셀레늄을 사용하여 타오바오 제품 정보를 캡처하는 예를 공유하겠습니다. 이는 좋은 참조 가치가 있으며 모든 사람에게 도움이 되기를 바랍니다.

Taobao 페이지는 데이터를 로드하는 데 많은 js를 사용하므로 셀레늄을 사용하여 크롤링하는 것이 더 쉽습니다. 테스트 도구로 셀레늄은 주로 창 없는 브라우저 phantomjs와 함께 사용됩니다.

import re
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as pq
&#39;&#39;&#39;
wait.until()语句是selenum里面的显示等待，wait是一个WebDriverWait对象，它设置了等待时间，如果页面在等待时间内
没有在 DOM中找到元素，将继续等待，超出设定时间后则抛出找不到元素的异常,也可以说程序每隔xx秒看一眼，如果条件
成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出TimeoutException
1.presence_of_element_located 元素加载出，传入定位元组，如(By.ID, &#39;p&#39;)
2.element_to_be_clickable 元素可点击
3.text_to_be_present_in_element 某个元素文本包含某文字
&#39;&#39;&#39;
# 定义一个无界面的浏览器
browser = webdriver.PhantomJS(
 service_args=[
  &#39;--load-images=false&#39;,
  &#39;--disk-cache=true&#39;])
# 10s无响应就down掉
wait = WebDriverWait(browser, 10)
#虽然无界面但是必须要定义窗口
browser.set_window_size(1400, 900)

def search():
 &#39;&#39;&#39;
 此函数的作用为完成首页点击搜索的功能，替换标签可用于其他网页使用
 :return:
 &#39;&#39;&#39;
 print(&#39;正在搜索&#39;)
 try:
  #访问页面
  browser.get(&#39;https://www.taobao.com&#39;)
  # 选择到淘宝首页的输入框
  input = wait.until(
   EC.presence_of_element_located((By.CSS_SELECTOR, &#39;#q&#39;))
  )
  #搜索的那个按钮
  submit = wait.until(EC.element_to_be_clickable(
   (By.CSS_SELECTOR, &#39;#J_TSearchForm > p.search-button > button&#39;)))
  #send_key作为写到input的内容
  input.send_keys(&#39;面条&#39;)
  #执行点击搜索的操作
  submit.click()
  #查看到当前的页码一共是多少页
  total = wait.until(EC.presence_of_element_located(
   (By.CSS_SELECTOR, &#39;#mainsrp-pager > p > p > p > p.total&#39;)))
  #获取所有的商品
  get_products()
  #返回总页数
  return total.text
 except TimeoutException:
  return search()

def next_page(page_number):
 &#39;&#39;&#39;
 翻页函数，
 :param page_number:
 :return:
 &#39;&#39;&#39;
 print(&#39;正在翻页&#39;, page_number)
 try:
  #这个是我们跳转页的输入框
  input = wait.until(EC.presence_of_element_located(
   (By.CSS_SELECTOR, &#39;#mainsrp-pager > p > p > p > p.form > input&#39;)))
  #跳转时的确定按钮
  submit = wait.until(
   EC.element_to_be_clickable(
    (By.CSS_SELECTOR,
     &#39;#mainsrp-pager > p > p > p > p.form > span.J_Submit&#39;)))
  #清除里面的数字
  input.clear()
  #重新输入数字
  input.send_keys(page_number)
  #选择并点击
  submit.click()
  #判断当前页是不是我们要现实的页
  wait.until(
   EC.text_to_be_present_in_element(
    (By.CSS_SELECTOR,
     &#39;#mainsrp-pager > p > p > p > ul > li.item.active > span&#39;),
    str(page_number)))
  #调用函数获取商品信息
  get_products()
 #捕捉超时，重新进入翻页的函数
 except TimeoutException:
  next_page(page_number)

def get_products():
 &#39;&#39;&#39;
 搜到页面信息在此函数在爬取我们需要的信息
 :return:
 &#39;&#39;&#39;
 #每一个商品标签，这里是加载出来以后才会拿网页源代码
 wait.until(EC.presence_of_element_located(
  (By.CSS_SELECTOR, &#39;#mainsrp-itemlist .items .item&#39;)))
 #这里拿到的是整个网页源代码
 html = browser.page_source
 #pq解析网页源代码
 doc = pq(html)
 items = doc(&#39;#mainsrp-itemlist .items .item&#39;).items()
 for item in items:
  # print(item)
  product = {
   &#39;image&#39;: item.find(&#39;.pic .img&#39;).attr(&#39;src&#39;),
   &#39;price&#39;: item.find(&#39;.price&#39;).text(),
   &#39;deal&#39;: item.find(&#39;.deal-cnt&#39;).text()[:-3],
   &#39;title&#39;: item.find(&#39;.title&#39;).text(),
   &#39;shop&#39;: item.find(&#39;.shop&#39;).text(),
   &#39;location&#39;: item.find(&#39;.location&#39;).text()
  }
  print(product)

def main():
 try:
  #第一步搜索
  total = search()
  #int类型刚才找到的总页数标签，作为跳出循环的条件
  total = int(re.compile(&#39;(\d+)&#39;).search(total).group(1))
  #只要后面还有就继续爬，继续翻页
  for i in range(2, total + 1):
   next_page(i)
 except Exception:
  print(&#39;出错啦&#39;)
 finally:
  #关闭浏览器
  browser.close()

if __name__ == &#39;__main__&#39;:
 main()

로그인 후 복사

위 내용은 모두를 위해 제가 정리한 내용입니다. 앞으로 모든 사람에게 도움이 되기를 바랍니다.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7570

Cakephp 튜토리얼

1386

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

108

Related knowledge

타오바오 배송지 주소는 어떻게 확인하나요? 타오바오 앱에서 주문한 상품의 배송지 주소를 확인하는 방법은 무엇인가요? Mar 12, 2024 pm 04:00 PM

Taobao 앱은 귀하의 모든 쇼핑 문제를 해결할 수 있습니다. 여기에는 수많은 판매자가 있으며 귀하가 선택하기를 기다리는 제품이 무엇이든 상관없이 여기에서 검색하고 찾을 수 있습니다. 주문하고 구매하며 모든 기능을 자유롭게 사용할 수 있습니다. 주문을 성공적으로 하면 판매자가 상품을 배송하고 물류 배송을 수행할 때까지 기다리면 됩니다. 매우 편리하고 많은 사람들이 볼 수 있습니다. 이러한 제품의 배송 위치를 확인하고 해당 제품이 배송되는 위치를 알아보세요. 특히 일부 전자 제품을 구매할 때 일부 관련 배송 위치를 확인하여 일부 리퍼브 기계를 구매할 때 발생할 수 있는 문제를 피할 수 있습니다.

타오바오에서 낯선 사람이 보낸 메시지를 거부하는 방법 Mar 02, 2024 am 08:40 AM

타오바오를 사용하는 과정에서 일부 이상한 사용자로부터 메시지를 받게 됩니다. 낯선 사람이 보낸 메시지를 거부하도록 설정하는 방법은 다음과 같습니다. 1. 휴대폰에서 타오바오를 열어 인터페이스에 들어간 후 하단의 '메시지' 항목을 클릭하여 전환한 다음 오른쪽 상단의 '+' 아이콘을 클릭하여 엽니다. 2. 아이콘 아래에 창이 나타나면 "메시지 설정" 항목을 클릭하여 선택하세요. 3. 메시지 설정 페이지에 "낯선 사람 채팅 설정"이 있습니다. 이를 클릭하여 들어갑니다. 4. 마지막으로 입력한 인터페이스에 "낯선 사람의 메시지 거부" 기능이 표시됩니다. 그 뒤에 있는 해당 스위치 버튼을 클릭하세요. 버튼이 컬러로 설정되면 활성화됩니다. 타오바오 이용 시 알 수 없는 사용자로부터 더 이상 메시지를 받지 않습니다.

Taobao 무료 빨간 봉투 2024를 얻는 방법 May 09, 2024 pm 03:22 PM

2024년 타오바오 무료주문 이벤트는 하루 3번 진행됩니다. 모든 사람은 해당 시간에 해당 상품을 주문하고 결제해야 합니다. 무료 주문 금액은 동일한 금액의 빨간 봉투 형태로 배포됩니다. 다음으로 2024년 타오바오 무료 주문 빨간 봉투 받는 방법을 알려드리겠습니다. 무료 사용자의 경우 활성화 상태에 있는 카드와 쿠폰 패키지에 빨간 봉투 자격이 발급됩니다. 현재 타오바오 웹 버전에는 카드와 쿠폰 패키지가 없으며, 무료 주문 이벤트 당첨 기록만 표시됩니다. 카드와 쿠폰 패키지는 [타오바오 앱-내 타오바오]-나의 권리-빨간 봉투]에 있습니다. 타오바오 빨간 봉투 무료로 받는 방법 20241. 무료 주문을 받은 사용자에게 빨간 봉투 자격은 활성화 대기 중인 카드와 쿠폰 패키지에 배포됩니다. 카드와 쿠폰 패키지가 있으며, 무료 주문 활동의 당첨 기록만 표시됩니다. ;3. 카드 쿠폰 패키지는 [타오바오 앱-나의 권리-빨간 봉투]에 있습니다.

타오바오에서 비밀번호 없는 결제를 끄는 방법 비밀번호 없는 결제 설정 방법을 취소하는 방법입니다. Mar 12, 2024 pm 12:07 PM

Taobao 앱에는 모든 사람이 더 나은 쇼핑 경험을 할 수 있도록 많은 기능이 있습니다. 다양한 제품 유형은 모두가 원하는 것을 구매할 수 있습니다. 카테고리별로 검색하실 수도 있고, 직접 검색하실 수도 있습니다. 누구나 안심하고 온라인 쇼핑을 하실 수 있습니다. 물론, 원하시는 모든 것을 제공해 드립니다. 여기에서 쇼핑하시면 선택 가능한 다양한 쇼핑 방법을 찾으실 수 있습니다. 비밀번호 없는 결제 기능을 좋아하는 사람도 있고 그렇지 않은 사람도 있지만 보안 수준은 그다지 높지 않은 것 같아요. 물론 누구나 언제든지 취소할 수 있습니다.

타오바오 이름 바꾸는 방법 Mar 24, 2024 pm 03:31 PM

이름 변경 기능을 사용하면 타오바오에서 이름과 닉네임을 자유롭게 변경할 수 있습니다. 일부 사용자는 타오바오에서 이름을 변경하는 방법을 모릅니다. 내 타오바오 설정에서 아바타의 타오바오 계정을 클릭하면 됩니다. 편집자가 알려드릴 것입니다. 이름과 닉네임을 변경하는 방법을 소개합니다. 아직 모르신다면 다운로드하여 사용해 보세요. 타오바오 사용 튜토리얼: 타오바오에서 이름을 변경하는 방법 답변: 내 타오바오 설정에서 아바타의 타오바오 계정을 클릭하여 수정하세요. 자세한 소개: 1. 타오바오에 들어가서 오른쪽 하단의 [내 타오바오]를 클릭하세요. . 2. 우측 상단의 [설정] 아이콘을 클릭하세요. 3. 아바타를 클릭하세요. 4. [타오바오 계정]을 다시 클릭하세요. 5. [계정 이름 수정]을 클릭하여 입력 후 수정하세요.

타오바오에서 개인화된 광고를 끄는 방법 Mar 01, 2024 pm 12:49 PM

우리는 Taobao를 사용하여 쇼핑할 때 소프트웨어에서 푸시하는 개인화된 광고 콘텐츠를 자주 받습니다. 다음은 개인화된 추천 광고를 끄는 방법을 소개합니다. 휴대폰에서 타오바오 앱을 열고 오른쪽 하단의 '내 타오바오'를 클릭한 후 오른쪽 상단의 톱니바퀴 아이콘을 클릭하여 '설정' 페이지로 들어갑니다. 2. 타오바오 설정 페이지에 접속한 후 '개인정보'를 찾아 클릭하여 들어갑니다. 3. 개인정보 보호 페이지에 "광고 관리"가 표시되면 클릭하여 들어갑니다. 4. 다음으로 입력한 광고 관리 페이지 하단에 '맞춤 광고 추천'이 있는데 그 뒤에 있는 스위치 버튼의 슬라이더를 클릭해 버튼을 회백색으로 설정합니다. 5. 이때, 타오바오의 "닫기 확인" 항목을 클릭하고 선택하면 창이 나타납니다.

타오바오에서 지문 결제를 활성화하는 방법 Mar 01, 2024 am 08:58 AM

타오바오 이용 시 지문결제 기능을 활성화할 수 있는 구체적인 운영방법을 소개하겠습니다. 1. 휴대폰에서 "타오바오"를 연 후, 페이지 오른쪽 하단의 "내 타오바오"를 클릭하여 들어가신 후, 오른쪽 상단의 "설정" 아이콘을 클릭하여 엽니다. 2. 설정 페이지에서 '결제' 항목을 클릭해 들어갑니다. 3. 결제 페이지에서 '얼굴/지문 결제' 항목을 클릭하여 진입합니다. 4. 다음으로 진입한 생체인식 결제 페이지에서 '지문결제' 뒤에 전환 버튼이 표시되어 있으며 이를 클릭하면 색상으로 설정되어 활성화됩니다. 5. 마지막 페이지에서 본인 확인을 위해 결제 비밀번호를 입력하라는 메시지가 표시됩니다. 인증을 통과하면 페이지에 "활성화 성공" 알림이 표시되며 타오바오의 지문 결제 기능을 사용할 수 있습니다.

타오바오 총 소비량 확인하는 방법 총 소비량 확인하는 방법 Mar 12, 2024 pm 03:07 PM

일반적으로 온라인 쇼핑을 해야 한다면 우리는 모두 Taobao를 플랫폼으로 선택하여 모든 쇼핑 요구를 완벽하게 충족할 수 있습니다. 여기에는 다양한 상품에 대한 많은 리소스가 있으며 실제로 모든 종류의 상품이 모여 있습니다. 이 플랫폼에는 다양한 제품 카테고리가 있으며 자신의 필요에 따라 선택할 수 있습니다. 이 상품들의 가격은 천차만별입니다. 이 모든 쇼핑 기록은 모두가 언제든지 확인할 수 있어 편리합니다. 그렇다면 여기서 쇼핑하는 금액은 정확히 얼마입니까? 여기 편집자들이 매우 궁금할 것입니다.

See all articles

셀레늄을 사용하여 Taobao 데이터 정보 캡처

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제