PHP 크롤러 연습: Baidu 검색 결과에서 필요한 데이터 추출-PHP 튜토리얼-php.cn

Idea

编写代码

获取百度搜索结果的 HTML 页面

解析 HTML 页面

결론

집

백엔드 개발

PHP 튜토리얼

PHP 크롤러 연습: Baidu 검색 결과에서 필요한 데이터 추출

PHPz

Jun 13, 2023 am 10:22 AM

php 비열한 데이터 추출

인터넷의 급속한 발전으로 정보 폭발 시대가 도래했습니다. 이런 시대에 검색엔진은 우리가 정보를 얻는 주요 도구가 되었고, 검색엔진이 제공하는 방대한 양의 데이터는 우리의 상상을 초월합니다. 그러나 일부 특정 분야의 연구자나 데이터 분석가에게 필요한 정보는 검색 결과에 포함된 데이터의 극히 일부일 수 있습니다. 이 경우 우리가 원하는 데이터를 정확히 얻으려면 크롤러를 사용해야 합니다.

이 기사에서는 PHP를 사용하여 Baidu 검색 결과에서 필요한 데이터를 추출하는 간단한 크롤러 프로그램을 작성하겠습니다. 이 프로그램의 핵심은 PHP의 cURL 라이브러리를 사용하여 HTTP 요청을 시뮬레이션한 다음 정규식 및 기타 방법을 사용하여 HTML 페이지를 구문 분석하는 것입니다.

Idea

크롤러 프로그램 작성을 시작하기 전에 몇 가지 질문을 명확히 해야 합니다.

목표: Baidu 검색 결과 페이지에서 크롤링하려는 데이터는 무엇입니까?
URL: 데이터를 얻으려면 어떤 URL이 필요합니까?
데이터 형식: Baidu 검색 결과 페이지의 데이터 형식은 무엇입니까?

어떤 데이터를 얻어야 하는지 고려할 때 "PHP 크롤러"라는 키워드를 예로 들어보겠습니다. 이 키워드를 바이두에서 검색하면 다음과 같은 정보를 볼 수 있습니다.

총 검색결과 수
각 검색결과 제목
각 검색결과 설명
각 검색결과 URL

그러면 우리는 Baidu 검색 결과에서 각 결과의 제목, 설명 및 URL을 추출하는 것으로 목표를 정의할 수 있습니다.

데이터를 얻는 첫 번째 단계는 얻고자 하는 URL을 명확히 하는 것입니다. 이 예에서 우리가 얻어야 하는 URL은 https://www.baidu.com/s?wd=php%20crawler입니다. Baidu 검색창에 "php 크롤러"를 입력하면 자동으로 이 URL로 이동할 수 있습니다. https://www.baidu.com/s?wd=php%20爬虫。通过在百度搜索栏中输入“php 爬虫”，我们可以自动跳转到这个 URL。

接着，我们需要了解我们将要解析的数据的格式。在我们的例子中，搜索结果以类似下面的 HTML 代码的形式存在：

<div class="result c-container ">
    <h3 class="t">
        <a href="http://www.example.com/" target="_blank" class="c-showurl">
            www.example.com
        </a>
        <em>PHP</em> 爬虫是什么? - PHP 入门教程 - 极客学院
    </h3>
    <div class="c-abstract">
        <span class=" newTimeFactor_before_abs">2天前 - </span>
        <em>PHP</em> 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过<a
            href="https://www.baidu.com/s?wd=python%20爬虫&amp;rsp=1&amp;f=8&amp;ie=utf-8&amp;tn=95754739_hao_pg"
            target="_blank" class="text-underline">python 爬虫</a>实现。相比于 <a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_nsisbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&amp;wd=&amp;eqid=f774f5d00003a46c000000065f51fc9a"
            target="_blank" class="text-underline">PHP</a>，<a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_ns
            isbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&amp;
            wd=&amp;eqid=f774f5d00003a46c000000065f51fc9a" target="_blank"
            class="text-underline">PHP</a> 一般用作...
    </div>
</div>

로그인 후 복사

在以上 HTML 代码片段中，可以看到每个搜索结果都嵌套在 <div class="result c-container "> 标签内。每个搜索结果都有一个标题，对应的 HTML 格式为 <h3 class="t">，其中链接地址嵌套在 <a> 标签内。每个搜索结果都有一个描述，对应的 HTML 格式为 <div class="c-abstract">。每个搜索结果还有一个网址，在 <a> 标签内含有 class="c-showurl"。

现在我们已经明确了我们要获取到的数据的格式及我们需要解析的 HTML 数据的格式，我们已经可以开始编写我们的爬虫程序了。

编写代码

我们将我们的 PHP 爬虫代码分成了三个步骤：

获取百度搜索结果的 HTML 页面
解析 HTML 页面
将解析后的数据以数组形式返回

获取百度搜索结果的 HTML 页面

我们可以使用 PHP 的 cURL 库发送 HTTP 请求，从而获取百度搜索结果的 HTML 页面。在这个例子中，我们将搜索页面的 URL 存在 $url 变量中。然后创建一个 cURL 的句柄，并设置许多选项，例如：设置 URL、设置请求头、设置代理、设置超时、设置请求方式为 GET，最后执行这个句柄，获取 HTML 页面。

<?php

$url = "https://www.baidu.com/s?wd=php%20爬虫";

// 创建curl句柄
$ch = curl_init();

// 设置curl选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt(
    $ch,
    CURLOPT_HTTPHEADER,
    [
        'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Referer: https://www.baidu.com/',
        'Connection: keep-alive',
    ]
);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

//执行curl句柄
$result = curl_exec($ch);

로그인 후 복사

在这个例子中，我们使用了 cURL 库提供的许多选项。例如，设置请求头来模拟浏览器发送的 HTTP 请求，设置请求方式为 GET，设置超时时间，等等。

解析 HTML 页面

在获取了百度搜索结果的 HTML 页面之后，我们需要解析它来获取我们需要的信息。在这个例子中，我们将使用 PHP 的正则表达式来解析 HTML 页面。

以下是我们使用正则表达式来从 HTML 页面中提取标题、描述和链接：

<?php

$result = curl_exec($ch);

// 匹配所有搜索结果
preg_match_all(
    '/<div.*?class="result.*?">.*?<h3.*?>.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
    $result,
    $matches
);

// 提取搜索结果中的标题、描述和链接
$data = [];
for ($i=0; $i<count($matches[0]); $i++) {
    $data[] = [
        'title' => strip_tags($matches[2][$i]), // 去除标题中的 HTML 标签
        'description' => strip_tags($matches[3][$i]), // 去除描述中的 HTML 标签
        'link' => $matches[1][$i]
    ];
};

// 关闭curl句柄
curl_close($ch);

로그인 후 복사

在以上代码中，我们使用了 PHP 的正则表达式来匹配所有的搜索结果。然后，我们使用一个循环来遍历所有的搜索结果，从中提取出我们需要的标题、描述和链接。由于我们从 HTML 中获取到的标题和描述中会含有 HTML 标签，我们使用 strip_tags

다음으로, 파싱할 데이터의 형식을 이해해야 합니다. 우리의 경우 검색 결과는 다음과 유사한 HTML 코드 형식으로 존재합니다.

<?php

function spider_baidu($keyword) {
    $url = "https://www.baidu.com/s?wd=" . urlencode($keyword);

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
    curl_setopt($ch, CURLOPT_HEADER, true);
    curl_setopt(
        $ch,
        CURLOPT_HTTPHEADER,
        [
            'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Referer: https://www.baidu.com/',
            'Connection: keep-alive',
        ]
    );
    curl_setopt($ch, CURLOPT_TIMEOUT, 30);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

    $result = curl_exec($ch);

    preg_match_all(
        '/<div.*?class="result.*?">.*?<h3.*?>.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
        $result,
        $matches
    );

    $data = [];
    for ($i=0; $i<count($matches[0]); $i++) {
        $data[] = [
            'title' => strip_tags($matches[2][$i]),
            'description' => strip_tags($matches[3][$i]),
            'link' => $matches[1][$i]
        ];
    };

    curl_close($ch);

    return $data;
}

로그인 후 복사

위의 HTML 코드 스니펫에서 각 검색 결과가 <div class="result 내에 중첩되어 있음을 알 수 있습니다. c -container "> 태그. 각 검색결과에는 제목이 있으며 해당 HTML 형식은 <h3 class="t">입니다. 여기서 링크 주소는 <a>에 중첩되어 있습니다. 태그 내부. 각 검색 결과에는 HTML 형식 <div class="c-abstract">의 설명이 있습니다. 각 검색결과에는 <a> 태그 내에 class="c-showurl"이 포함된 URL도 있습니다.

이제 우리가 얻고자 하는 데이터의 형식과 구문 분석해야 하는 HTML 데이터의 형식을 명확히 했으므로 크롤러 프로그램 작성을 시작할 수 있습니다.

코드 작성🎜🎜우리는 PHP 크롤러 코드를 세 단계로 나누었습니다: 🎜🎜🎜Baidu 검색 결과의 HTML 페이지 가져오기 🎜🎜HTML 페이지 구문 분석 🎜🎜파싱된 데이터를 배열 형식으로 반환🎜🎜🎜Baidu 가져오기 검색 결과의 HTML 페이지🎜🎜Baidu 검색 결과의 HTML 페이지를 얻기 위해 PHP의 cURL 라이브러리를 사용하여 HTTP 요청을 보낼 수 있습니다. 이 예에서는 검색 페이지의 URL을 $url 변수에 저장합니다. 그런 다음 cURL 핸들을 생성하고 URL 설정, 요청 헤더 설정, 프록시 설정, 시간 초과 설정, 요청 방법을 GET으로 설정하고 마지막으로 이 핸들을 실행하여 HTML 페이지를 얻는 등 다양한 옵션을 설정합니다. 🎜rrreee🎜이 예에서는 cURL 라이브러리에서 제공하는 많은 옵션을 사용합니다. 예를 들어, 브라우저에서 보낸 HTTP 요청을 시뮬레이션하도록 요청 헤더를 설정하고, 요청 방법을 GET으로 설정하고, 시간 초과를 설정하는 등의 작업을 수행합니다. 🎜🎜HTML 페이지 구문 분석🎜🎜Baidu 검색 결과의 HTML 페이지를 가져온 후 이를 구문 분석하여 필요한 정보를 얻어야 합니다. 이 예에서는 PHP의 정규 표현식을 사용하여 HTML 페이지를 구문 분석합니다. 🎜🎜다음은 HTML 페이지에서 제목, 설명, 링크를 추출하는 데 사용하는 정규식입니다. 🎜rrreee🎜위 코드에서는 PHP의 정규식을 사용하여 모든 검색 결과를 일치시킵니다. 그런 다음 루프를 사용하여 모든 검색 결과를 살펴보고 필요한 제목, 설명 및 링크를 추출합니다. HTML에서 가져온 제목과 설명에는 HTML 태그가 포함되므로 strip_tags 함수를 사용하여 이를 제거합니다. 🎜🎜결과 반환🎜🎜위 코드에서 필요한 데이터를 얻었으므로 이제 결과를 배열 형식으로 반환하기만 하면 됩니다. 우리는 전체 크롤러 프로그램을 함수로 캡슐화하고 얻은 데이터를 배열 형식으로 반환합니다. 🎜rrreee🎜 키워드를 매개변수로 받은 다음 이 함수를 호출하여 Baidu 검색결과 제목, 설명에서 키워드를 가져올 수 있습니다. 그리고 링크. 🎜

결론

이 기사에서는 Baidu 검색 결과에서 필요한 데이터를 추출하기 위해 PHP를 사용하여 간단한 크롤러 프로그램을 작성했습니다. 이 프로그램은 PHP의 cURL 라이브러리를 사용하여 HTTP 요청을 시뮬레이션하고 정규식과 같은 방법을 사용하여 HTML 페이지를 구문 분석합니다. 이 예를 통해 크롤러의 작동 방식과 PHP를 사용하여 크롤러를 작성하는 방법을 심층적으로 이해할 수 있습니다. 실제 프로젝트에서는 필요한 데이터를 얻기 위해 필요에 따라 이 프로그램을 수정할 수 있습니다.

위 내용은 PHP 크롤러 연습: Baidu 검색 결과에서 필요한 데이터 추출의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7675

Cakephp 튜토리얼

1393

C# 튜토리얼

1207

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

Related knowledge

Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드 Dec 24, 2024 pm 04:42 PM

PHP 8.4는 상당한 양의 기능 중단 및 제거를 통해 몇 가지 새로운 기능, 보안 개선 및 성능 개선을 제공합니다. 이 가이드에서는 Ubuntu, Debian 또는 해당 파생 제품에서 PHP 8.4를 설치하거나 PHP 8.4로 업그레이드하는 방법을 설명합니다.

이전에 몰랐던 후회되는 PHP 함수 7가지 Nov 13, 2024 am 09:42 AM

숙련된 PHP 개발자라면 이미 그런 일을 해왔다는 느낌을 받을 것입니다. 귀하는 상당한 수의 애플리케이션을 개발하고, 수백만 줄의 코드를 디버깅하고, 여러 스크립트를 수정하여 작업을 수행했습니다.

PHP 개발을 위해 Visual Studio Code(VS Code)를 설정하는 방법 Dec 20, 2024 am 11:31 AM

VS Code라고도 알려진 Visual Studio Code는 모든 주요 운영 체제에서 사용할 수 있는 무료 소스 코드 편집기 또는 통합 개발 환경(IDE)입니다. 다양한 프로그래밍 언어에 대한 대규모 확장 모음을 통해 VS Code는

JWT (JSON Web Tokens) 및 PHP API의 사용 사례를 설명하십시오. Apr 05, 2025 am 12:04 AM

JWT는 주로 신분증 인증 및 정보 교환을 위해 당사자간에 정보를 안전하게 전송하는 데 사용되는 JSON을 기반으로 한 개방형 표준입니다. 1. JWT는 헤더, 페이로드 및 서명의 세 부분으로 구성됩니다. 2. JWT의 작업 원칙에는 세 가지 단계가 포함됩니다. JWT 생성, JWT 확인 및 Parsing Payload. 3. PHP에서 인증에 JWT를 사용하면 JWT를 생성하고 확인할 수 있으며 사용자 역할 및 권한 정보가 고급 사용에 포함될 수 있습니다. 4. 일반적인 오류에는 서명 검증 실패, 토큰 만료 및 대형 페이로드가 포함됩니다. 디버깅 기술에는 디버깅 도구 및 로깅 사용이 포함됩니다. 5. 성능 최적화 및 모범 사례에는 적절한 시그니처 알고리즘 사용, 타당성 기간 설정 합리적,

PHP에서 HTML/XML을 어떻게 구문 분석하고 처리합니까? Feb 07, 2025 am 11:57 AM

이 튜토리얼은 PHP를 사용하여 XML 문서를 효율적으로 처리하는 방법을 보여줍니다. XML (Extensible Markup Language)은 인간의 가독성과 기계 구문 분석을 위해 설계된 다목적 텍스트 기반 마크 업 언어입니다. 일반적으로 데이터 저장 AN에 사용됩니다

문자열로 모음을 계산하는 PHP 프로그램 Feb 07, 2025 pm 12:12 PM

문자열은 문자, 숫자 및 기호를 포함하여 일련의 문자입니다. 이 튜토리얼은 다른 방법을 사용하여 PHP의 주어진 문자열의 모음 수를 계산하는 방법을 배웁니다. 영어의 모음은 A, E, I, O, U이며 대문자 또는 소문자 일 수 있습니다. 모음이란 무엇입니까? 모음은 특정 발음을 나타내는 알파벳 문자입니다. 대문자와 소문자를 포함하여 영어에는 5 개의 모음이 있습니다. a, e, i, o, u 예 1 입력 : String = "Tutorialspoint" 출력 : 6 설명하다 문자열의 "Tutorialspoint"의 모음은 u, o, i, a, o, i입니다. 총 6 개의 위안이 있습니다

PHP에서 늦은 정적 결합을 설명하십시오 (정적 : :). Apr 03, 2025 am 12:04 AM

정적 바인딩 (정적 : :)는 PHP에서 늦은 정적 바인딩 (LSB)을 구현하여 클래스를 정의하는 대신 정적 컨텍스트에서 호출 클래스를 참조 할 수 있습니다. 1) 구문 분석 프로세스는 런타임에 수행됩니다. 2) 상속 관계에서 통화 클래스를 찾아보십시오. 3) 성능 오버 헤드를 가져올 수 있습니다.

php magic 방법 (__construct, __destruct, __call, __get, __set 등)이란 무엇이며 사용 사례를 제공합니까? Apr 03, 2025 am 12:03 AM

PHP의 마법 방법은 무엇입니까? PHP의 마법 방법은 다음과 같습니다. 1. \ _ \ _ Construct, 객체를 초기화하는 데 사용됩니다. 2. \ _ \ _ 파괴, 자원을 정리하는 데 사용됩니다. 3. \ _ \ _ 호출, 존재하지 않는 메소드 호출을 처리하십시오. 4. \ _ \ _ get, 동적 속성 액세스를 구현하십시오. 5. \ _ \ _ Set, 동적 속성 설정을 구현하십시오. 이러한 방법은 특정 상황에서 자동으로 호출되어 코드 유연성과 효율성을 향상시킵니다.

See all articles

PHP 크롤러 연습: Baidu 검색 결과에서 필요한 데이터 추출

Idea

编写代码

获取百度搜索结果的 HTML 页面

解析 HTML 页面

결론

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제