PHP 웹 크롤러는 fsockopen을 사용하여 HTTP 요청을 구현합니다.
웹 크롤러는 사용자 행동을 시뮬레이션하여 네트워크상의 데이터를 자동으로 캡처하고 저장하거나 분석할 수 있는 자동화된 데이터 수집 도구입니다. 널리 사용되는 웹 개발 언어인 PHP에는 풍부한 웹 크롤러 개발 도구와 기술도 있습니다.
이 기사에서는 PHP의 fsockopen 함수를 사용하여 HTTP 요청을 구현하여 간단한 웹 크롤러 시스템을 구축하는 방법을 소개합니다. fsockopen 함수는 소켓 통신과 관련된 PHP 함수로 TCP/IP 프로토콜을 기반으로 네트워크 연결을 설정하는 데 사용할 수 있습니다. fsockopen을 사용하여 HTTP 요청을 하는 경우 HTTP 프로토콜 사양을 따르고 올바른 요청 헤더 정보와 요청 본문 데이터를 보내 대상 페이지의 응답 콘텐츠를 가져와야 합니다. 아래에서는 이 과정을 단계별로 보여드리겠습니다.
네트워크 연결 설정
fsockopen 기능을 사용하여 네트워크 연결을 설정할 때 대상 서버의 호스트 이름과 포트 번호를 지정해야 하며 HTTP 또는 HTTPS 프로토콜을 사용하도록 선택할 수 있습니다. 다음은 간단한 네트워크 연결 예시입니다.
$hostname = 'example.com'; // 目标服务器主机名 $port = 80; // 目标服务器端口号 $protocol = 'tcp'; // 使用 TCP/IP 协议 $handle = fsockopen($protocol . '://' . $hostname, $port, $errno, $errstr); if (!$handle) { echo '网络连接错误'; }
이 예시에서는 TCP/IP 프로토콜을 사용하여 대상 서버 example.com의 호스트 이름을 지정하고 포트 번호는 80입니다. 연결이 성공하면 소켓 핸들 $handle이 반환되고, 그렇지 않으면 네트워크 연결 오류 메시지가 출력됩니다.
HTTP 요청 보내기
네트워크 연결을 설정한 후 HTTP 프로토콜에 따라 올바른 HTTP 요청 헤더 정보와 요청 본문 데이터를 보내야 합니다. 구체적으로 요청 방법, 요청 경로, 요청 헤더 정보 및 요청 본문 데이터를 정의하고 이를 사양에 따라 HTTP 프로토콜을 준수하는 문자열로 연결해야 합니다. 다음은 HTTP GET 요청을 보내는 예입니다.
$path = '/'; // 请求路径 $method = 'GET'; // 请求方法 // 组装请求头信息 $headers = array( 'Host: ' . $hostname, 'Connection: close', 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64)', ); // 组装请求体数据 $body = ''; // 拼接 HTTP 请求 $request = $method . ' ' . $path . " HTTP/1.1 "; $request .= implode(" ", $headers) . " "; $request .= " "; $request .= $body; // 发送请求 fwrite($handle, $request);
이 예에서는 요청 경로를 루트 디렉터리 /로 정의하고 요청 방법을 GET으로 정의합니다. 그런 다음 Host, Connection 및 User-Agent를 포함하는 요청 헤더 정보를 정의합니다. 편의상 여기서는 간단한 User-Agent를 사용합니다. 실제 개발에서는 서버에 의해 차단되지 않도록 보다 무작위적이고 복잡한 UA를 사용해야 할 수도 있습니다. 다음으로 요청 본문 데이터가 비어 있도록 정의했습니다. 마지막으로 HTTP 요청을 연결하고 fwrite 함수를 통해 대상 서버로 보냅니다.
HTTP 응답 수신
대상 서버가 HTTP 요청을 수신하면 HTTP 응답을 반환합니다. 이 응답에는 응답 헤더 정보와 응답 본문 데이터가 포함됩니다. 소켓 핸들에서 응답 콘텐츠를 읽고 응답 헤더와 응답 본문 데이터를 구문 분석하려면 PHP의 fread 함수를 사용해야 합니다. 예는 다음과 같습니다.
// 接收响应 $response = ''; while (!feof($handle)) { $response .= fgets($handle); } // 关闭连接 fclose($handle); // 解析响应 list($header, $body) = explode(" ", $response, 2); $headers = explode(" ", $header); $status = array_shift($headers); list($version, $code, $reason) = explode(' ', $status, 3);
이 예에서는 루프를 사용하여 응답 내용을 한 줄씩 읽고 $response 변수에 저장합니다. 그런 다음 대상 서버에 대한 네트워크 연결을 닫았습니다. 다음으로,Explode 함수를 사용하여 응답 헤더와 응답 본문을 구문 분석하고 응답 헤더에서 상태 코드와 응답 설명을 가져옵니다. 실제 개발에서는 Content-Type, Set-Cookie 등과 같은 다른 응답 헤더 정보를 구문 분석해야 할 수도 있습니다.
지금까지 우리는 비교적 간단한 HTTP 요청 전송 및 응답 구문 분석 프로세스를 구현했습니다. 프록시 서버 사용, 임의 지연 추가 등 필요에 따라 웹 크롤러 시스템의 기능과 성능을 더욱 개선하고 조정할 수 있습니다. 동시에 우리는 웹 크롤러의 규범과 윤리를 준수해야 하며 크롤러 도구를 남용해서는 안 되며 웹 사이트의 합법적인 권익과 사용자 개인정보를 침해해서는 안 됩니다.
위 내용은 PHP 웹 크롤러는 fsockopen을 사용하여 HTTP 요청을 구현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











PHP 8.4는 상당한 양의 기능 중단 및 제거를 통해 몇 가지 새로운 기능, 보안 개선 및 성능 개선을 제공합니다. 이 가이드에서는 Ubuntu, Debian 또는 해당 파생 제품에서 PHP 8.4를 설치하거나 PHP 8.4로 업그레이드하는 방법을 설명합니다.

CakePHP는 PHP용 오픈 소스 프레임워크입니다. 이는 애플리케이션을 훨씬 쉽게 개발, 배포 및 유지 관리할 수 있도록 하기 위한 것입니다. CakePHP는 강력하고 이해하기 쉬운 MVC와 유사한 아키텍처를 기반으로 합니다. 모델, 뷰 및 컨트롤러 gu

VS Code라고도 알려진 Visual Studio Code는 모든 주요 운영 체제에서 사용할 수 있는 무료 소스 코드 편집기 또는 통합 개발 환경(IDE)입니다. 다양한 프로그래밍 언어에 대한 대규모 확장 모음을 통해 VS Code는

CakePHP는 오픈 소스 MVC 프레임워크입니다. 이를 통해 애플리케이션 개발, 배포 및 유지 관리가 훨씬 쉬워집니다. CakePHP에는 가장 일반적인 작업의 과부하를 줄이기 위한 여러 라이브러리가 있습니다.

이 튜토리얼은 PHP를 사용하여 XML 문서를 효율적으로 처리하는 방법을 보여줍니다. XML (Extensible Markup Language)은 인간의 가독성과 기계 구문 분석을 위해 설계된 다목적 텍스트 기반 마크 업 언어입니다. 일반적으로 데이터 저장 AN에 사용됩니다
