로봇 프로토콜(크롤러 프로토콜, 로봇 프로토콜 등으로도 알려짐)의 전체 이름은 "로봇 제외 프로토콜"입니다. 웹사이트는 로봇 프로토콜을 사용하여 검색 엔진에 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지를 알려줍니다. 크롤링. 이 기사에서는 크롤러 프로토콜 로봇을 자세히 소개합니다
로봇 프로토콜의 전체 이름은 "로봇 제외 프로토콜"입니다. 해당 기능은 로봇 파일을 통해 검색 엔진에 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지를 알려주는 것입니다. . 이는 웹사이트의 루트 디렉토리에 텍스트 파일 형태로 배치되며 일반적인 텍스트 편집기를 사용하여 수정 및 편집할 수 있습니다. 웹마스터의 경우 robots.txt 파일을 올바르게 작성하면 검색 엔진을 보다 합리적으로 사용할 수 있고, 품질이 낮은 일부 페이지를 차단할 수 있으며, 웹 사이트의 품질과 검색 엔진에 대한 친숙성을 향상시킬 수 있습니다.
구체적인 작성 방법은 다음과 같습니다.
(*는 와일드카드 문자)
User-agent: *는 모든 검색 엔진 유형을 나타냅니다.
Disallow: /admin/ 여기서 정의는 크롤링을 금지하는 것입니다.
Disallow: /require/ 여기서 정의는 require 디렉터리 아래의 디렉터리를 크롤링하는 것을 금지하는 것입니다. Disallow: /ABC/ 여기서 정의는 ABC 디렉터리 아래의 디렉터리를 크롤링하는 것을 금지하는 것입니다. Disallow: / cgi-bin/*.htm 액세스 금지됨/ cgi-bin/ 디렉토리(하위 디렉토리 포함)에서 접미사 ".htm"이 있는 모든 URL. Disallow: /*?* 웹사이트에서 물음표(?)가 포함된 모든 URL에 대한 액세스를 허용하지 않습니다. Disallow: /.jpg$ 웹페이지에서 모든 .jpg 형식 이미지의 크롤링을 허용하지 않습니다. Disallow:/ab/adc. html 허용되지 않음 ab 폴더 아래의 adc.html 파일을 크롤링합니다. Allow: /cgi-bin/ 여기서 정의는 cgi-bin 디렉터리 아래 디렉터리의 크롤링을 허용하는 것입니다. Allow: /tmp 여기서 정의는 tmp의 전체 디렉터리에 대한 크롤링을 허용하는 것입니다. Allow: .htm$ URL의 접미사인 ".htm"에 대한 액세스만 허용합니다. Allow: .gif$를 사용하면 웹 페이지 및 gif 형식 이미지를 크롤링할 수 있습니다. 사이트맵: 사이트맵은 크롤러에게 이 페이지가 사이트맵임을 알려줍니다. Overview robots.txt 파일은 텍스트 파일로, 검색 엔진의 웹사이트 가장 먼저 볼 파일입니다. robots.txt 파일은 서버에서 볼 수 있는 파일을 스파이더에게 알려줍니다. 검색 스파이더는 사이트를 방문할 때 먼저 사이트의 루트 디렉터리에 robots.txt가 있는지 확인합니다. 파일 내용에 따라 액세스 범위를 결정합니다. 파일이 존재하지 않으면 모든 검색 스파이더가 비밀번호로 보호되지 않은 웹사이트의 모든 페이지에 액세스할 수 있습니다.[원리] 로봇 프로토콜은 국제 인터넷 커뮤니티의 공통 도덕 규범은 다음과 같은 원칙에 따라 제정되었습니다: 1. 검색 기술은 정보 제공자의 의사를 존중하고 개인 정보 보호 권리를 유지하면서 인간에게 봉사해야 합니다. 사용자의 개인정보 및 사생활 침해 [참고] robots.txt는 사이트의 루트 디렉터리에 있어야 하며, 파일 이름은 모두 소문자 Writing【User-agent】 아래 코드에서 *로 표시되는 모든 검색 엔진 유형, *는 모든 검색 로봇을 나타내는 와일드카드 문자입니다.User-agent: *
User-agent: Baiduspider
Disallow: /admin/
Disallow: /.jpg$
Disallow:/ab/adc.html
Disallow: /*?*
Disallow: /
Allow: .html$
Allow: /tmp
User-agent: *Allow: /
User-agent: *Disallow: /
User-agent: Baiduspider Disallow: /
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
【신화 1】: 웹사이트의 모든 파일은 스파이더에 의해 크롤링되어야 하므로 robots.txt 파일을 추가할 필요가 없습니다. 어쨌든 파일이 존재하지 않으면 모든 검색 스파이더는 기본적으로 비밀번호로 보호되지 않는 웹사이트의 모든 페이지에 액세스할 수 있습니다
사용자가 존재하지 않는 URL에 액세스하려고 시도할 때마다 서버는 404 오류를 기록합니다. (로그 문서에서 찾을 수 없음). 검색 스파이더가 존재하지 않는 robots.txt 파일을 찾을 때마다 서버도 로그에 404 오류를 기록하므로 웹사이트에 robots.txt를 추가해야 합니다
【오해 2】: 로봇에. txt 파일 검색 스파이더가 모든 파일을 크롤링하도록 설정하면 웹 사이트의 포함률이 높아질 수 있습니다
웹 사이트의 프로그램 스크립트, 스타일 시트 및 기타 파일이 스파이더에 포함되어 있어도 웹 사이트의 포함률은 증가하지 않으며, 서버 리소스만 낭비됩니다. 따라서 검색 스파이더가 이러한 파일을 색인화하는 것을 허용하지 않도록 robots.txt 파일에 이를 설정해야 합니다
위 내용은 크롤러 프로토콜 로봇 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!