백엔드 개발 PHP 튜토리얼 PHP 크롤러 연습: 웹 테이블 데이터를 크롤링하는 방법

PHP 크롤러 연습: 웹 테이블 데이터를 크롤링하는 방법

Jun 13, 2023 am 09:35 AM
php 비열한 표 형식 데이터

인터넷과 빅데이터 시대의 도래로 인해 점점 더 많은 데이터가 수집되고 활용될 수 있게 되었습니다. 웹페이지에서 데이터를 얻는 다양한 방법 중에서 크롤러 기술은 가장 강력하고 효율적인 기술이라고 할 수 있습니다.

실제 애플리케이션 시나리오에서는 웹 페이지에서 특정 데이터, 특히 웹 페이지의 테이블 데이터를 가져와야 하는 경우가 많습니다. 따라서 이 기사에서는 PHP 크롤러 기술을 사용하여 웹 페이지에서 표 형식의 데이터를 얻고 구문 분석하는 방법을 소개합니다.

  1. PHP 크롤러 라이브러리 설치 및 구성

크롤러 코드 작성을 시작하기 전에 PHP 크롤러 라이브러리를 설치하고 구성해야 합니다. 여기서는 HTML 문서의 태그와 속성을 쉽게 구문 분석할 수 있고 일반적으로 사용되는 DOM 작업 방법을 제공하는 경량 HTML 파서인 PHP Simple HTML DOM Parser 라이브러리를 사용하기로 선택했습니다. 라이브러리는 작성기 도구를 사용하여 쉽게 설치하고 구성할 수 있습니다.

  1. 대상 웹페이지 분석

웹페이지 데이터를 캡처하는 코드를 작성하기 전에 먼저 대상 웹페이지의 구조와 데이터 형식을 분석하여 필요한 데이터를 올바르게 찾고 얻을 수 있습니다. 여기서는 블로그 웹사이트의 기사 목록 페이지를 예로 들어 보겠습니다. 여기에는 아래와 같이 여러 행의 데이터와 일부 테이블 요소가 포함되어 있습니다.

<table>
  <thead>
    <tr>
      <th>编号</th>
      <th>标题</th>
      <th>作者</th>
      <th>发布时间</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>1</td>
      <td><a href="/articles/1">PHP爬虫实战</a></td>
      <td>张三</td>
      <td>2022-06-01 08:00:00</td>
    </tr>
    <tr>
      <td>2</td>
      <td><a href="/articles/2">Python数据可视化</a></td>
      <td>李四</td>
      <td>2022-06-02 09:00:00</td>
    </tr>
    <!-- more rows -->
  </tbody>
</table>
로그인 후 복사

이 웹페이지의 테이블은 <table></로 구성됩니다. code>, <code><thead>, <tbody>, <tr> 등의 태그로 구성되며, 그 중 <thead>는 테이블의 열 헤더를 정의하는 데 사용되며, <tbody>는 테이블의 행 데이터를 정의하는 데 사용됩니다. <td></ code>는 셀 데이터를 정의하는 데 사용되며 <code> <a> 태그는 기사 제목에 대한 링크를 나타냅니다. <table><thead><tbody><tr>等标签组成,其中<thead>用于定义表格的列头,<tbody>用于定义表格的行数据,<td>用于定义单元格数据,而<a>标签则表示文章标题的链接。

  1. 编写爬虫代码

有了目标网页的分析结果,我们就可以编写爬虫代码来获取表格数据了。

首先,我们需要加载目标网页,然后使用file_get_html()方法将其转换成DOM对象。接着,我们可以使用find()方法来选择数据所在的元素,例如table > tbody > tr表示选择<table>的子元素<tbody>下的所有<tr>标签,即表格的所有行数据。代码如下:

$url = 'http://example.com/articles';
$html = file_get_html($url);

$rows = array();
foreach ($html->find('table > tbody > tr') as $row) {
  // 解析表格数据
}
로그인 후 복사

然后,我们需要遍历每一行数据,解析其中的单元格数据并将其保存到数组中,以便后续处理。具体来说,我们可以使用find('td')方法来选择每个行元素的子元素<td>,然后获取其文本内容或链接地址。代码如下:

$url = 'http://example.com/articles';
$html = file_get_html($url);

$rows = array();
foreach ($html->find('table > tbody > tr') as $row) {
  $data = array();
  
  // 获取单元格文本内容或链接地址
  $columns = $row->find('td');
  $data['id'] = $columns[0]->plaintext;
  $data['title'] = $columns[1]->find('a', 0)->plaintext;
  $data['link'] = $columns[1]->find('a', 0)->href;
  $data['author'] = $columns[2]->plaintext;
  $data['date'] = $columns[3]->plaintext;
    
  $rows[] = $data;
}
로그인 후 복사

上述代码中,$data数组保存当前行的数据,其中idtitleauthordate分别对应表格的列,而link则是文章标题的链接地址。使用$rows[] = $data语句将$data数组添加到$rows

    크롤러 코드 작성

      대상 웹페이지의 분석 결과를 바탕으로 크롤러 코드를 작성하여 테이블 데이터를 얻을 수 있습니다.
    1. 먼저 대상 웹페이지를 로드한 다음 file_get_html() 메서드를 사용하여 이를 DOM 객체로 변환해야 합니다. 그런 다음 find() 메서드를 사용하여 데이터가 있는 요소를 선택할 수 있습니다. 예를 들어 table > tr< ;table> 하위 요소 <tbody> 아래의 모든 <tr> 태그, 즉 테이블의 모든 데이터 행입니다. 코드는 다음과 같습니다. rrreee

      그런 다음 데이터의 각 행을 반복하고 그 안의 셀 데이터를 구문 분석한 후 후속 처리를 위해 배열에 저장해야 합니다. 구체적으로 find('td') 메소드를 사용하여 각 행 요소의 하위 요소 <td>를 선택한 다음 해당 텍스트 콘텐츠 또는 링크 주소를 얻을 수 있습니다. . 코드는 다음과 같습니다. rrreee🎜위 코드에서 $data 배열은 현재 행의 데이터를 저장하며 그 중 id, title code>, <code>author, date는 각각 표의 열에 해당하고, link는 기사 제목의 링크 주소입니다. $rows[] = $data 문을 사용하여 $data 배열을 $rows 배열에 추가합니다. 🎜🎜마지막으로 데이터를 데이터베이스에 저장하거나 Excel 파일로 내보내는 등 필요에 따라 데이터를 추가로 처리하고 저장할 수 있습니다. 🎜🎜🎜요약🎜🎜🎜이 글에서는 PHP Simple HTML DOM Parser 라이브러리를 사용하여 웹 페이지 테이블 데이터를 크롤링하는 방법을 소개합니다. 대상 웹 페이지의 구조와 데이터 형식을 분석하고 해당 DOM 작업 방법을 사용하여 필요한 데이터를 신속하게 찾고 얻을 수 있으며 이를 통해 다양한 데이터 분석 및 응용 시나리오를 실현할 수 있습니다. 물론 크롤러 기술 역시 웹사이트의 이용 규정 및 정책을 준수하도록 주의를 기울여야 하며 타인의 권리를 남용하거나 침해할 수 없습니다. 🎜

위 내용은 PHP 크롤러 연습: 웹 테이블 데이터를 크롤링하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

CakePHP 프로젝트 구성 CakePHP 프로젝트 구성 Sep 10, 2024 pm 05:25 PM

이번 장에서는 CakePHP의 환경 변수, 일반 구성, 데이터베이스 구성, 이메일 구성에 대해 알아봅니다.

Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드 Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드 Dec 24, 2024 pm 04:42 PM

PHP 8.4는 상당한 양의 기능 중단 및 제거를 통해 몇 가지 새로운 기능, 보안 개선 및 성능 개선을 제공합니다. 이 가이드에서는 Ubuntu, Debian 또는 해당 파생 제품에서 PHP 8.4를 설치하거나 PHP 8.4로 업그레이드하는 방법을 설명합니다.

CakePHP 날짜 및 시간 CakePHP 날짜 및 시간 Sep 10, 2024 pm 05:27 PM

cakephp4에서 날짜와 시간을 다루기 위해 사용 가능한 FrozenTime 클래스를 활용하겠습니다.

CakePHP 파일 업로드 CakePHP 파일 업로드 Sep 10, 2024 pm 05:27 PM

파일 업로드 작업을 위해 양식 도우미를 사용할 것입니다. 다음은 파일 업로드의 예입니다.

CakePHP 토론 CakePHP 토론 Sep 10, 2024 pm 05:28 PM

CakePHP는 PHP용 오픈 소스 프레임워크입니다. 이는 애플리케이션을 훨씬 쉽게 개발, 배포 및 유지 관리할 수 있도록 하기 위한 것입니다. CakePHP는 강력하고 이해하기 쉬운 MVC와 유사한 아키텍처를 기반으로 합니다. 모델, 뷰 및 컨트롤러 gu

CakePHP 라우팅 CakePHP 라우팅 Sep 10, 2024 pm 05:25 PM

이번 장에서는 라우팅과 관련된 다음과 같은 주제를 학습하겠습니다.

CakePHP 데이터베이스 작업 CakePHP 데이터베이스 작업 Sep 10, 2024 pm 05:25 PM

CakePHP에서 데이터베이스 작업은 매우 쉽습니다. 이번 장에서는 CRUD(생성, 읽기, 업데이트, 삭제) 작업을 이해하겠습니다.

CakePHP 유효성 검사기 만들기 CakePHP 유효성 검사기 만들기 Sep 10, 2024 pm 05:26 PM

컨트롤러에 다음 두 줄을 추가하면 유효성 검사기를 만들 수 있습니다.

See all articles