예, 크롤러의 다섯 부분: 스케줄러 URL 중복 제거 다운로더 웹 페이지 구문 분석 데이터 저장 이미지 다운로드 아이디어는 다음과 같습니다. 이미지가 있는 웹 페이지의 콘텐츠를 가져오고 img 태그를 구문 분석합니다. , 이미지 주소를 얻은 다음 편리한 사진 URL을 가져와 각 사진을 다운로드하고, 다운로드한 사진 주소를 Bloom 필터에 저장하여 반복 다운로드를 방지하고, 사진을 다운로드할 때마다 URL을 통해 다운로드되었는지 확인하고, 사진이 다운로드되면 로컬에 다운로드되면 데이터베이스에 이미지 경로를 저장하고 폴더에 이미지 파일을 저장하거나 이미지를 데이터베이스에 직접 저장할 수 있습니다. python은 request+beautifulsoup4를 사용합니다. java는 jsoup을 사용합니다
크롤링 방법을 알고 있다면 이 요구 사항은 실제로 몇 단계만 거치면 매우 간단합니다.
홈 페이지 또는 사진이 있는 페이지에서 정규 표현식이나 기타 프레임워크를 통해 사진을 가져옵니다
url
requests
库或者urllib
라이브러리바이너리 형식으로 로컬 하드 디스크에 쓰기
참조 코드:
으아악자세한 내용은 공식 문서인 요청 문서를 참조하세요
requests
예,
크롤러의 다섯 부분:
스케줄러
URL 중복 제거
다운로더
웹 페이지 구문 분석
데이터 저장
이미지 다운로드 아이디어는 다음과 같습니다.
이미지가 있는 웹 페이지의 콘텐츠를 가져오고 img 태그를 구문 분석합니다. , 이미지 주소를 얻은 다음 편리한 사진 URL을 가져와 각 사진을 다운로드하고, 다운로드한 사진 주소를 Bloom 필터에 저장하여 반복 다운로드를 방지하고, 사진을 다운로드할 때마다 URL을 통해 다운로드되었는지 확인하고, 사진이 다운로드되면 로컬에 다운로드되면 데이터베이스에 이미지 경로를 저장하고 폴더에 이미지 파일을 저장하거나 이미지를 데이터베이스에 직접 저장할 수 있습니다.
python은 request+beautifulsoup4를 사용합니다.
java는 jsoup을 사용합니다
여러 웹사이트 또는 하나의 웹사이트를 매우 깊게 크롤링해야 하는 경우 위의 방법은 직접 재귀 또는 심층 탐색이 될 수 있습니다
.