전 세계 크롤러의 80%는 Python을 기반으로 개발됩니다. 크롤러 기술을 학습하면 후속 빅데이터 분석, 마이닝, 기계 학습 등에 중요한 데이터 소스를 제공할 수 있습니다.
Python 크롤러는 관련 라이브러리를 설치해야 합니다:
Python 크롤러와 관련된 라이브러리:
요청 라이브러리, 구문 분석 라이브러리, 저장소 라이브러리, 도구 라이브러리
1. 요청 라이브러리: urllib/re/requests
(1) urllib /re는 Python에 기본으로 제공되는 라이브러리로, 다음 명령어로 확인할 수 있습니다.
환경이 정상임을 나타내는 오류 메시지가 출력되지 않습니다.
(2) 설치 요청
2.1 열기 CMD,
pip3 install requests
입력 2.2 설치 대기 그 후
확인 (3) 셀레늄 설치 (웹사이트 접속 동작을 위한 브라우저 구동)
3.1 CMD 열기,
pip3 install selenium
3.2 크롬드라이버 설치
웹사이트: https ://npm.taobao.org/
다운로드한 압축 패키지를 추출하고 exe를 D:Python3.6.0Scripts에 넣으세요
이 경로는 PATH 변수에만 있으면 됩니다
3.3 설치가 완료된 후 확인하세요
Enter를 누르면 크롬이 나타납니다. 브라우저 인터페이스
3.4 다른 브라우저 설치
인터페이스 없는 브라우저 phantomjs
다운로드 URL: http://phantomjs.org/
다운로드한 후 압축을 풀고 전체 디렉토리를 D:Python3.6.0Scripts, 그리고 bin 디렉터리 경로를 PATH 변수에 추가합니다.
확인:
Open CMD
phantomjs console.log('phantomjs') CTRL+C python from selenium import webdriver driver = webdriver.PhantomJS() dirver.get('http://www.baidu.com') driver.page_source
2 구문 분석 라이브러리:
2.1 lxml (XPATH)
Open CMD
pip3 install lxml
또는 https://pypi.python.org에서 다운로드(예: lxml-4.1.1-cp36-cp36m-win_amd64.whl(md5)), 먼저 whl 파일
pip3 install 文件名.whl
2.2 beautifulsoup
Open CMD를 다운로드하세요. lxml
pip3 install beautifulsoup4
Verification
python from bs4 import BeautifulSoup soup = BeautifulSoup('<html></html>','lxml')
2.3 pyquery (jQuery 문법과 유사)
Open CMD
Rpip3 install pyquery
확인 및 설치 결과
python from pyquery import PyQuery as pq doc = pq('<html>hi</html>') result = doc('html').text() result
3.1 PyMysql (MySQL, Relationship Database 운영)
설치 필요3.2 pymongo(MongoDB 운영, 키-값)
installation
pip3 install pymysql
pip3 install pymongo
3.3 redis(분산 크롤러, 크롤링 대기열 유지)
설치:
python import pymongo client = pymongo.MongoClient('localhost') db = client['testdb'] db['table'].insert({'name':'bob'}) db['table'].find_one({'name':'bob'})
인증:
4. 도구 라이브러리
4.1 플라스크(WEB 라이브러리)
pip3 install redis
4.2 Django(분산 크롤러 유지 관리 시스템)
pip3 install flask
4.3 jupyter(웹 페이지에서 실행되는 메모장, markdown 지원, 웹 페이지)
pip3 install django
확인:
Open CMD
pip3 install jupyter
python 크롤러 라이브러리 및 관련 도구.
2.Python 크롤러 입문 튜토리얼
위 내용은 Python 크롤러를 위해 설치해야 할 것의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!