크롤러는 어떤 종류의 데이터를 얻을 수 있으며, 구체적인 분석 방법은 무엇입니까?

爱喝马黛茶的安东尼
풀어 주다: 2019-06-05 13:12:32
앞으로
4882명이 탐색했습니다.

인터넷의 급속한 발전으로 인해 이 시대에는 점점 더 많은 데이터가 넘쳐나고 있습니다. 데이터를 획득하고 처리하는 것은 우리 삶의 필수적인 부분이 되었으며, 시대가 요구하는 대로 크롤러가 등장했습니다.

다양한 언어로 크롤링이 가능하지만 python 기반 크롤러가 더 간결하고 편리합니다. . Crawler는 또한 Python 언어의 필수적인 부분이 되었습니다. 그렇다면 크롤러를 통해 어떤 종류의 데이터를 얻을 수 있을까요? 어떤 분석방법이 있나요?

이전 글에서 소개드린 기본 크롤러 프로세스 요청 및 응답 소개# 🎜🎜#, 이 글에서는 크롤러가 얻을 수 있는 데이터의 종류와 구체적인 분석 방법을 소개합니다.

크롤러는 어떤 종류의 데이터를 얻을 수 있으며, 구체적인 분석 방법은 무엇입니까?


어떤 종류의 데이터를 캡처할 수 있나요?

웹 페이지 텍스트: HTML 문서, Ajax에서 로드한 Json 형식 텍스트 등

사진, 비디오 등: 바이너리 파일을 얻으면 사진이나 비디오 형식으로 저장하세요.

요청이 가능한 한 다른 파일도 얻을 수 있습니다.

Demo

import requests
 
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers)
print(resp.content) # 二进制文件使用content
# 保存图片
with open('logo.gif','wb') as f:
    f.write(resp.content)
    print('Ok')
로그인 후 복사

성공적으로 실행하면 다음의 바이너리를 볼 수 있습니다. 인쇄된 이미지 데이터가 성공적으로 저장되고 인쇄될 수 있습니다. 이때 폴더를 열면 다운로드한 사진을 볼 수 있습니다. 이 몇 줄의 코드는 단순히 크롤러가 파일을 저장하는 과정을 보여줍니다. 구문 분석 방법은 무엇입니까?



간단한 페이지 문서와 같은 직접 처리는 일부 공간 데이터만 제거합니다.

#🎜 🎜 #Json 구문 분석, Ajax 로드 페이지 처리 #BeautifulSoup 라이브러리; 🎜#PyQuery

XPath.


요약#🎜🎜 ## 🎜🎜#

이것을 보고 크롤러의 기본 작동 원리를 이미 명확하게 이해하셨나요? 물론, 로마는 하루아침에 이루어지지 않습니다. 충분한 경험을 축적한다면 반드시 파충류의 달인이 될 것입니다. 제가 공유한 관련 정보를 읽으면 모두가 성공할 것이라고 믿습니다.

위 내용은 크롤러는 어떤 종류의 데이터를 얻을 수 있으며, 구체적인 분석 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:csdn.net
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿