PHP 크롤러 연습: 웹 테이블 데이터를 크롤링하는 방법
인터넷과 빅데이터 시대의 도래로 인해 점점 더 많은 데이터가 수집되고 활용될 수 있게 되었습니다. 웹페이지에서 데이터를 얻는 다양한 방법 중에서 크롤러 기술은 가장 강력하고 효율적인 기술이라고 할 수 있습니다.
실제 애플리케이션 시나리오에서는 웹 페이지에서 특정 데이터, 특히 웹 페이지의 테이블 데이터를 가져와야 하는 경우가 많습니다. 따라서 이 기사에서는 PHP 크롤러 기술을 사용하여 웹 페이지에서 표 형식의 데이터를 얻고 구문 분석하는 방법을 소개합니다.
- PHP 크롤러 라이브러리 설치 및 구성
크롤러 코드 작성을 시작하기 전에 PHP 크롤러 라이브러리를 설치하고 구성해야 합니다. 여기서는 HTML 문서의 태그와 속성을 쉽게 구문 분석할 수 있고 일반적으로 사용되는 DOM 작업 방법을 제공하는 경량 HTML 파서인 PHP Simple HTML DOM Parser 라이브러리를 사용하기로 선택했습니다. 라이브러리는 작성기 도구를 사용하여 쉽게 설치하고 구성할 수 있습니다.
- 대상 웹페이지 분석
웹페이지 데이터를 캡처하는 코드를 작성하기 전에 먼저 대상 웹페이지의 구조와 데이터 형식을 분석하여 필요한 데이터를 올바르게 찾고 얻을 수 있습니다. 여기서는 블로그 웹사이트의 기사 목록 페이지를 예로 들어 보겠습니다. 여기에는 아래와 같이 여러 행의 데이터와 일부 테이블 요소가 포함되어 있습니다.
<table> <thead> <tr> <th>编号</th> <th>标题</th> <th>作者</th> <th>发布时间</th> </tr> </thead> <tbody> <tr> <td>1</td> <td><a href="/articles/1">PHP爬虫实战</a></td> <td>张三</td> <td>2022-06-01 08:00:00</td> </tr> <tr> <td>2</td> <td><a href="/articles/2">Python数据可视化</a></td> <td>李四</td> <td>2022-06-02 09:00:00</td> </tr> <!-- more rows --> </tbody> </table>
이 웹페이지의 테이블은 <table></로 구성됩니다. code>, <code><thead>
, <tbody>
, <tr>
등의 태그로 구성되며, 그 중 <thead>
는 테이블의 열 헤더를 정의하는 데 사용되며, <tbody>
는 테이블의 행 데이터를 정의하는 데 사용됩니다. <td></ code>는 셀 데이터를 정의하는 데 사용되며 <code> <a>
태그는 기사 제목에 대한 링크를 나타냅니다. <table>
、<thead>
、<tbody>
和<tr>
等标签组成,其中<thead>
用于定义表格的列头,<tbody>
用于定义表格的行数据,<td>
用于定义单元格数据,而<a>
标签则表示文章标题的链接。
- 编写爬虫代码
有了目标网页的分析结果,我们就可以编写爬虫代码来获取表格数据了。
首先,我们需要加载目标网页,然后使用file_get_html()
方法将其转换成DOM对象。接着,我们可以使用find()
方法来选择数据所在的元素,例如table > tbody > tr
表示选择<table>
的子元素<tbody>
下的所有<tr>
标签,即表格的所有行数据。代码如下:
$url = 'http://example.com/articles'; $html = file_get_html($url); $rows = array(); foreach ($html->find('table > tbody > tr') as $row) { // 解析表格数据 }
然后,我们需要遍历每一行数据,解析其中的单元格数据并将其保存到数组中,以便后续处理。具体来说,我们可以使用find('td')
方法来选择每个行元素的子元素<td>
,然后获取其文本内容或链接地址。代码如下:
$url = 'http://example.com/articles'; $html = file_get_html($url); $rows = array(); foreach ($html->find('table > tbody > tr') as $row) { $data = array(); // 获取单元格文本内容或链接地址 $columns = $row->find('td'); $data['id'] = $columns[0]->plaintext; $data['title'] = $columns[1]->find('a', 0)->plaintext; $data['link'] = $columns[1]->find('a', 0)->href; $data['author'] = $columns[2]->plaintext; $data['date'] = $columns[3]->plaintext; $rows[] = $data; }
上述代码中,$data
数组保存当前行的数据,其中id
、title
、author
和date
分别对应表格的列,而link
则是文章标题的链接地址。使用$rows[] = $data
语句将$data
数组添加到$rows
- 크롤러 코드 작성
- 먼저 대상 웹페이지를 로드한 다음
file_get_html()
메서드를 사용하여 이를 DOM 객체로 변환해야 합니다. 그런 다음find()
메서드를 사용하여 데이터가 있는 요소를 선택할 수 있습니다. 예를 들어table > tr
는< ;table>
하위 요소<tbody> 아래의 모든
<tr> 태그, 즉 테이블의 모든 데이터 행입니다. 코드는 다음과 같습니다. rrreee
그런 다음 데이터의 각 행을 반복하고 그 안의 셀 데이터를 구문 분석한 후 후속 처리를 위해 배열에 저장해야 합니다. 구체적으로
find('td')
메소드를 사용하여 각 행 요소의 하위 요소<td>를 선택한 다음 해당 텍스트 콘텐츠 또는 링크 주소를 얻을 수 있습니다. . 코드는 다음과 같습니다. rrreee🎜위 코드에서
$data
배열은 현재 행의 데이터를 저장하며 그 중id
,title code>, <code>author
,date
는 각각 표의 열에 해당하고,link
는 기사 제목의 링크 주소입니다.$rows[] = $data
문을 사용하여$data
배열을$rows
배열에 추가합니다. 🎜🎜마지막으로 데이터를 데이터베이스에 저장하거나 Excel 파일로 내보내는 등 필요에 따라 데이터를 추가로 처리하고 저장할 수 있습니다. 🎜🎜🎜요약🎜🎜🎜이 글에서는 PHP Simple HTML DOM Parser 라이브러리를 사용하여 웹 페이지 테이블 데이터를 크롤링하는 방법을 소개합니다. 대상 웹 페이지의 구조와 데이터 형식을 분석하고 해당 DOM 작업 방법을 사용하여 필요한 데이터를 신속하게 찾고 얻을 수 있으며 이를 통해 다양한 데이터 분석 및 응용 시나리오를 실현할 수 있습니다. 물론 크롤러 기술 역시 웹사이트의 이용 규정 및 정책을 준수하도록 주의를 기울여야 하며 타인의 권리를 남용하거나 침해할 수 없습니다. 🎜
- 대상 웹페이지의 분석 결과를 바탕으로 크롤러 코드를 작성하여 테이블 데이터를 얻을 수 있습니다.
위 내용은 PHP 크롤러 연습: 웹 테이블 데이터를 크롤링하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











이번 장에서는 CakePHP의 환경 변수, 일반 구성, 데이터베이스 구성, 이메일 구성에 대해 알아봅니다.

PHP 8.4는 상당한 양의 기능 중단 및 제거를 통해 몇 가지 새로운 기능, 보안 개선 및 성능 개선을 제공합니다. 이 가이드에서는 Ubuntu, Debian 또는 해당 파생 제품에서 PHP 8.4를 설치하거나 PHP 8.4로 업그레이드하는 방법을 설명합니다.

CakePHP는 PHP용 오픈 소스 프레임워크입니다. 이는 애플리케이션을 훨씬 쉽게 개발, 배포 및 유지 관리할 수 있도록 하기 위한 것입니다. CakePHP는 강력하고 이해하기 쉬운 MVC와 유사한 아키텍처를 기반으로 합니다. 모델, 뷰 및 컨트롤러 gu

CakePHP에서 데이터베이스 작업은 매우 쉽습니다. 이번 장에서는 CRUD(생성, 읽기, 업데이트, 삭제) 작업을 이해하겠습니다.
