此前一直是做PHP开发的,现在想学习下爬虫开发,很疑惑呀不知道从何做起,请大家指教下学习线路,我是属于想要深入研究型的。网上看到很多示例感觉就像做采集,Url扩散爬去和分析部分的资料很少...求推荐学习线路、数据、视频等各种,能介绍下避坑攻略就更好啦。
学习是最好的投资!
웹 개발을 해보니 크롤러를 만드는 것은 매우 간단하다고 생각합니다. http 프로토콜만 확인하면 괜찮을 것 같습니다
몇 가지만 알려주세요
크롤링 속도(제어 및 속도 절충)
멀티스레딩
여러 프로세스
메시지 대기열
웹페이지 분석
인터페이스 검색-> F12.Network를 활용하세요
xpath, re 및 기타 구문 분석 라이브러리
구조화된 데이터
지속성->데이터베이스 연결 풀->특정 번호에 대한 데이터베이스 연결 활성화
크롤러 방지
IP 차단->프록시 풀->프록시를 더욱 합리적으로 사용하는 방법
인증코드->OCR
먼저 PHP를 사용하여 크롤러를 구현하고 원리를 이해할 수 있습니다. 컬도 할 수 있어요. 언어는 도구일 뿐이에요
"Python Web Crawler"라는 책을 읽어보세요.
웹 개발을 해보니 크롤러를 만드는 것은 매우 간단하다고 생각합니다. http 프로토콜만 확인하면 괜찮을 것 같습니다
몇 가지만 알려주세요
크롤링 속도(제어 및 속도 절충)
멀티스레딩
여러 프로세스
메시지 대기열
웹페이지 분석
인터페이스 검색-> F12.Network를 활용하세요
xpath, re 및 기타 구문 분석 라이브러리
구조화된 데이터
지속성->데이터베이스 연결 풀->특정 번호에 대한 데이터베이스 연결 활성화
크롤러 방지
IP 차단->프록시 풀->프록시를 더욱 합리적으로 사용하는 방법
인증코드->OCR
먼저 PHP를 사용하여 크롤러를 구현하고 원리를 이해할 수 있습니다. 컬도 할 수 있어요. 언어는 도구일 뿐이에요
"Python Web Crawler"라는 책을 읽어보세요.