백엔드 개발 파이썬 튜토리얼 좋은 웹 크롤러를 수행하는 방법은 무엇입니까?

좋은 웹 크롤러를 수행하는 방법은 무엇입니까?

Jun 20, 2017 pm 04:23 PM
어떻게 비열한 회로망

웹 크롤러의 본질은 실제로 인터넷에서 데이터를 "훔치는" 것입니다. 웹 크롤러를 통해 우리는 필요한 자원을 수집할 수 있지만 마찬가지로 부적절한 사용으로 인해 심각한 문제가 발생할 수도 있습니다.

그러므로 웹 크롤러를 사용할 때는 "올바른 방법으로 훔쳐야" 합니다.

웹 크롤러는 주로 다음 세 가지 범주로 나뉩니다.

1. 이러한 유형의 웹 크롤러에는 주로 요청 라이브러리를 사용하여 구현할 수 있습니다.

2. 중간 규모, 대규모 데이터 규모, 크롤링 속도에 민감한 이러한 유형의 웹 크롤러에는 주로 웹사이트 또는 일련의 웹사이트를 크롤링하는 데 사용됩니다. , 검색 엔진, 크롤링 속도가 핵심입니다. 현재로서는 주로 전체 네트워크를 크롤링하는 데 사용되는 맞춤형 개발이 필요하며 일반적으로 Baidu, Google 검색 등과 같은 전체 네트워크에 대한 검색 엔진을 구축합니다.

이 세 가지 유형 중 첫 번째 유형이 가장 일반적이며, 대부분 웹 페이지를 크롤링하는 소규모 크롤러입니다.

웹 크롤러에 대한 이의도 많습니다. 웹 크롤러는 지속적으로 서버에 요청을 보내 서버 성능에 영향을 미치고 서버를 괴롭히며 웹 사이트 관리자의 작업량을 증가시키기 때문입니다.

웹 크롤러는 서버를 괴롭히는 것 외에도 법적 위험을 초래할 수도 있습니다.

서버에 있는 데이터에는 재산권이 있으므로, 해당 데이터를 영리 목적으로 사용할 경우 법적 위험이 따릅니다. 또한 웹 크롤러로 인해 사용자 개인정보가 유출될 수도 있습니다.

요컨대, 웹 크롤러의 위험성은 주로 다음 세 가지에 기인합니다.

    서버의 성능 괴롭힘
  • 콘텐츠 수준의 법적 위험성
  • 개인정보 유출
  • 따라서 웹 크롤러를 사용하려면 특정 규칙이 필요합니다.

실제로 일부 대형 웹사이트에서는 웹 크롤러에 관련 제한을 두었고, 웹 크롤러 역시 인터넷 전체에서 표준화된 기능으로 간주됩니다.

일반 서버의 경우 웹 크롤러를 2가지 방법으로 제한할 수 있습니다. 1. 웹 사이트 소유자가 특정 기술적 능력을 갖춘 경우 소스 검토를 통해 웹 크롤러를 제한할 수 있습니다.

원본 리뷰는 일반적으로 User-Agent를 판단하여 제한됩니다. 이 글은 두 번째 유형에 중점을 둡니다.

2. 로봇 프로토콜을 사용하여 웹 크롤러에게 준수해야 할 규칙, 크롤링할 수 있는 규칙과 허용되지 않는 규칙을 알려주고 모든 크롤러가 이 프로토콜을 준수하도록 요구합니다.

두 번째 방법은 공지 형식으로 알리는 것입니다. 로봇 계약은 권장사항이지만 구속력은 없습니다. 웹 크롤러는 이를 따르지 않을 수 있지만 법적 위험이 있을 수 있습니다. 이 두 가지 방법을 통해 인터넷에서는 웹 크롤러에 대한 효과적인 도덕적, 기술적 제한이 형성됩니다.

그러면

웹 크롤러를 작성할 때 웹 사이트 관리자의 웹 사이트 리소스 관리를 존중해야 합니다.

인터넷의 일부 웹사이트에는 Robots 프로토콜이 없으며 모든 데이터를 크롤링할 수 있습니다. 그러나 대다수의 주류 웹사이트는 관련 제한 사항이 있는 Robots 프로토콜을 지원합니다. 로봇 프로토콜의

로봇 제외 표준(로봇 제외 표준, 웹 크롤러 제외 표준): 기능: 웹 사이트는 웹 크롤러에게 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지를 알려줍니다.

양식: 웹사이트 루트 디렉토리에 있는 robots.txt 파일.

로봇 프로토콜의 기본 구문: *는 모두를 나타내고 /는 루트 디렉터리를 나타냅니다.

예를 들어 PMCAFF의 로봇 프로토콜:

User-agent: *

Disallow: /article/edit

Disallow: /discuss/write

Disallow: /discuss/edit

첫 번째 줄의 User-agent:*는 모든 웹 크롤러가 다음 프로토콜을 준수해야 함을 의미합니다.

Disallow: 두 번째 줄의 /article/edit는 모든 웹 크롤러가 기사/편집에 액세스할 수 없음을 의미합니다. 아래 내용은 다른 내용과 동일합니다.

JD.com의 로봇 프로토콜을 관찰하면 User-agent: EtaoSpider, Disallow: /가 있음을 알 수 있습니다. 여기서 EtaoSpider는 악성 크롤러이며 JD.com의 어떤 리소스도 크롤링할 수 없습니다. EnUser-agent:*

Disallow: /?*

Disallow: /pop/*.html

disallow: /pinpai/ *.html?*

User-agent: EtaoSpider

Disallow: /

User-agent: HuihuiSpider

Disallow: /

User-agent: GwdangSpider

Disallow: /

사용자 에이전트: WochachaSpider

허용하지 않음: /

로봇 프로토콜을 사용하면 웹사이트의 콘텐츠를 규제하고 모든 웹 크롤러에게 크롤링할 수 있는 것과 허용되지 않는 것을 알릴 수 있습니다.

Robots 프로토콜은 루트 디렉터리에 존재한다는 점에 유의하는 것이 중요합니다. 루트 디렉터리마다 서로 다른 Robots 프로토콜이 있을 수 있으므로 크롤링할 때 더 주의를 기울여야 합니다.

위 내용은 좋은 웹 크롤러를 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

WLAN 확장 모듈이 중지되었습니다. [수정] WLAN 확장 모듈이 중지되었습니다. [수정] Feb 19, 2024 pm 02:18 PM

Windows 컴퓨터의 WLAN 확장 모듈에 문제가 있는 경우 인터넷 연결이 끊어질 수 있습니다. 이러한 상황은 종종 좌절감을 주지만 다행히도 이 문서에서는 이 문제를 해결하고 무선 연결이 다시 제대로 작동하도록 하는 데 도움이 될 수 있는 몇 가지 간단한 제안 사항을 제공합니다. WLAN 확장성 모듈 복구가 중지되었습니다. Windows 컴퓨터에서 WLAN 확장성 모듈의 작동이 중지된 경우 다음 제안에 따라 문제를 해결하십시오. 네트워크 및 인터넷 문제 해결사를 실행하여 무선 네트워크 연결을 비활성화했다가 다시 활성화하십시오. WLAN 자동 구성 서비스 다시 시작 전원 옵션 수정 수정 고급 전원 설정 네트워크 어댑터 드라이버 재설치 일부 네트워크 명령 실행 이제 자세히 살펴보겠습니다.

win11 DNS 서버 오류를 해결하는 방법 win11 DNS 서버 오류를 해결하는 방법 Jan 10, 2024 pm 09:02 PM

인터넷에 접속하려면 인터넷에 연결할 때 올바른 DNS를 사용해야 합니다. 마찬가지로 잘못된 DNS 설정을 사용하면 DNS 서버 오류가 발생합니다. 이때 네트워크 설정에서 자동으로 DNS를 가져오도록 선택하여 문제를 해결할 수 있습니다. 솔루션. win11 네트워크 DNS 서버 오류 해결 방법 방법 1: DNS 재설정 1. 먼저 작업 표시줄에서 시작을 클릭하여 들어가서 "설정" 아이콘 버튼을 찾아 클릭합니다. 2. 그런 다음 왼쪽 열에서 "네트워크 및 인터넷" 옵션 명령을 클릭합니다. 3. 그런 다음 오른쪽에서 "이더넷" 옵션을 찾아 클릭하여 들어갑니다. 4. 그 후 DNS 서버 할당에서 "편집"을 클릭하고 마지막으로 DNS를 "자동(D)"으로 설정합니다.

Chrome, Google 드라이브 및 사진에서 '네트워크 오류 실패' 다운로드를 수정하세요! Chrome, Google 드라이브 및 사진에서 '네트워크 오류 실패' 다운로드를 수정하세요! Oct 27, 2023 pm 11:13 PM

"네트워크 오류 다운로드 실패" 문제란 무엇입니까? 솔루션을 살펴보기 전에 먼저 "네트워크 오류 다운로드 실패" 문제가 무엇을 의미하는지 이해해 보겠습니다. 이 오류는 일반적으로 다운로드 중에 네트워크 연결이 중단될 때 발생합니다. 인터넷 연결이 약하거나 네트워크 정체 또는 서버 문제 등 다양한 이유로 인해 발생할 수 있습니다. 이 오류가 발생하면 다운로드가 중지되고 오류 메시지가 표시됩니다. 네트워크 오류로 인해 다운로드 실패를 수정하는 방법은 무엇입니까? "네트워크 오류 다운로드 실패"가 발생하면 필요한 파일에 액세스하거나 다운로드하는 데 방해가 될 수 있습니다. Chrome과 같은 브라우저를 사용하든 Google 드라이브 및 Google 포토와 같은 플랫폼을 사용하든 이 오류가 나타나 불편을 끼칠 수 있습니다. 다음은 이 문제를 탐색하고 해결하는 데 도움이 되는 사항입니다.

수정: WD My Cloud가 Windows 11의 네트워크에 표시되지 않습니다. 수정: WD My Cloud가 Windows 11의 네트워크에 표시되지 않습니다. Oct 02, 2023 pm 11:21 PM

WDMyCloud가 Windows 11의 네트워크에 표시되지 않으면 특히 백업이나 기타 중요한 파일을 저장하는 경우 큰 문제가 될 수 있습니다. 이는 네트워크 저장소에 자주 액세스해야 하는 사용자에게는 큰 문제가 될 수 있으므로 오늘 가이드에서는 이 문제를 영구적으로 해결하는 방법을 알려 드리겠습니다. WDMyCloud가 Windows 11 네트워크에 표시되지 않는 이유는 무엇입니까? MyCloud 장치, 네트워크 어댑터 또는 인터넷 연결이 올바르게 구성되지 않았습니다. SMB 기능이 컴퓨터에 설치되어 있지 않습니다. Winsock의 일시적인 결함으로 인해 이 문제가 발생할 수 있습니다. 내 클라우드가 네트워크에 표시되지 않으면 어떻게 해야 합니까? 문제 해결을 시작하기 전에 몇 가지 예비 점검을 수행할 수 있습니다.

Windows 10에서 인터넷에 접속할 수 없을 때, 지구가 오른쪽 하단에 표시된다면 어떻게 해야 하나요? Win10에서 지구가 인터넷에 접속할 수 없는 문제에 대한 다양한 해결책 Windows 10에서 인터넷에 접속할 수 없을 때, 지구가 오른쪽 하단에 표시된다면 어떻게 해야 하나요? Win10에서 지구가 인터넷에 접속할 수 없는 문제에 대한 다양한 해결책 Feb 29, 2024 am 09:52 AM

이 문서에서는 Win10 시스템 네트워크에 지구본 기호가 표시되지만 인터넷에 액세스할 수 없는 문제에 대한 해결 방법을 소개합니다. 이 기사에서는 독자가 지구에서 인터넷에 액세스할 수 없다는 것을 보여주는 Win10 네트워크 문제를 해결하는 데 도움이 되는 자세한 단계를 제공할 것입니다. 방법 1: 직접 재시작 먼저 네트워크 케이블이 제대로 연결되어 있지 않은지, 광대역 연결이 지연되는지 확인하세요. 이 경우 라우터나 광 모뎀을 재시작해야 합니다. 컴퓨터에서 수행 중인 중요한 작업이 없으면 컴퓨터를 직접 다시 시작할 수 있습니다. 대부분의 사소한 문제는 컴퓨터를 다시 시작하면 빠르게 해결될 수 있습니다. 광대역이 연체되지 않고 네트워크가 정상이라고 판단된다면 그것은 또 다른 문제이다. 방법 2: 1. [Win] 키를 누르거나 왼쪽 하단에 있는 [시작 메뉴]를 클릭합니다. 메뉴 항목이 열리면 전원 버튼 위에 있는 기어 아이콘을 클릭합니다.

네트워크 연결을 확인하세요: ㅋㅋㅋ 서버에 연결할 수 없습니다 네트워크 연결을 확인하세요: ㅋㅋㅋ 서버에 연결할 수 없습니다 Feb 19, 2024 pm 12:10 PM

LOL은 서버에 연결할 수 없습니다. 네트워크를 확인하세요. 최근 몇 년 동안 온라인 게임은 많은 사람들에게 일상적인 오락 활동이 되었습니다. 그 중 리그오브레전드(LOL)는 수억 명의 플레이어들의 참여와 관심을 불러일으키는 매우 인기 있는 멀티플레이어 온라인 게임이다. 하지만 가끔 LOL을 플레이할 때 "서버에 연결할 수 없습니다. 네트워크를 확인하세요"라는 오류 메시지가 표시되어 플레이어에게 문제를 일으킬 수 있습니다. 다음으로 이 오류의 원인과 해결 방법에 대해 설명하겠습니다. 우선 LOL이 서버에 접속하지 못하는 문제는

네트워크가 Wi-Fi에 연결할 수 없으면 무슨 일이 일어나고 있나요? 네트워크가 Wi-Fi에 연결할 수 없으면 무슨 일이 일어나고 있나요? Apr 03, 2024 pm 12:11 PM

1. Wi-Fi 비밀번호 확인: 입력한 Wi-Fi 비밀번호가 올바른지 확인하고 대소문자를 구분하세요. 2. Wi-Fi가 제대로 작동하는지 확인: Wi-Fi 라우터가 정상적으로 작동하는지 확인하세요. 동일한 라우터에 다른 장치를 연결하여 해당 장치에 문제가 있는지 확인할 수 있습니다. 3. 장치 및 라우터 다시 시작: 장치 또는 라우터에 오작동이나 네트워크 문제가 있는 경우 장치 및 라우터를 다시 시작하면 문제가 해결될 수도 있습니다. 4. 장치 설정 확인: 장치의 무선 기능이 켜져 있고 Wi-Fi 기능이 비활성화되어 있지 않은지 확인하십시오.

ICLR'24 사진 없는 새로운 아이디어! LaneSegNet: 차선 분할 인식 기반 지도 학습 ICLR'24 사진 없는 새로운 아이디어! LaneSegNet: 차선 분할 인식 기반 지도 학습 Jan 19, 2024 am 11:12 AM

위에 쓴 글 & 자율주행 시스템의 다운스트림 적용을 위한 핵심 정보인 지도에 대한 저자의 개인적인 이해는 대개 차선이나 중앙선으로 표현됩니다. 그러나 기존의 지도 학습 문헌은 주로 차선의 기하학적 기반 위상 관계를 탐지하거나 중심선을 감지하는 데 중점을 두고 있습니다. 두 방법 모두 차선과 중앙선 사이의 고유한 관계, 즉 차선이 중앙선을 묶는다는 점을 무시합니다. 단순히 하나의 모델에서 두 가지 유형의 차선을 예측하는 것은 학습 목표에서 상호 배타적이지만, 본 논문에서는 기하학적 정보와 위상적 정보를 완벽하게 결합하는 새로운 표현으로 차선 세그먼트를 제안하여 LaneSegNet을 제안합니다. 이는 도로 구조의 완전한 표현을 얻기 위해 차선 구간을 생성하는 최초의 엔드투엔드 매핑 네트워크입니다. LaneSegNet에는 두 가지 수준이 있습니다.

See all articles