Pratique du robot d'exploration PHP : comment analyser les données d'une table Web-tutoriel php-php.cn

Maison

développement back-end

tutoriel php

Pratique du robot d'exploration PHP : comment analyser les données d'une table Web

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2023 am 09:35 AM

php 爬虫表格数据

Avec l'avènement d'Internet et de l'ère du Big Data, de plus en plus de données peuvent être collectées et utilisées. Parmi les nombreuses méthodes permettant d’obtenir des données à partir de pages Web, la technologie des robots d’exploration peut être considérée comme la plus puissante et la plus efficace.

Dans des scénarios d'application réels, nous devons souvent récupérer des données spécifiques à partir de pages Web, en particulier les données de tableaux dans les pages Web. Par conséquent, cet article présentera comment utiliser la technologie de robot d'exploration PHP pour obtenir et analyser des données tabulaires dans des pages Web.

Installer et configurer la bibliothèque de robots PHP

Avant de commencer à écrire du code de robot, nous devons installer et configurer une bibliothèque de robots PHP. Ici, nous choisissons d'utiliser la bibliothèque PHP Simple HTML DOM Parser, qui est un analyseur HTML léger qui peut facilement analyser les balises et les attributs dans les documents HTML et fournit certaines méthodes d'opération DOM couramment utilisées. La bibliothèque peut être facilement installée et configurée à l'aide de l'outil Composer.

Analyser la page Web cible

Avant d'écrire le code pour capturer les données de la page Web, nous devons d'abord analyser la structure et le format des données de la page Web cible afin de pouvoir localiser et obtenir correctement les données requises. Ici, nous prenons comme exemple la page de liste d'articles d'un site Web de blog. Elle contient plusieurs lignes de données et quelques éléments de tableau, comme indiqué ci-dessous :

<table>
  <thead>
    <tr>
      <th>编号</th>
      <th>标题</th>
      <th>作者</th>
      <th>发布时间</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>1</td>
      <td><a href="/articles/1">PHP爬虫实战</a></td>
      <td>张三</td>
      <td>2022-06-01 08:00:00</td>
    </tr>
    <tr>
      <td>2</td>
      <td><a href="/articles/2">Python数据可视化</a></td>
      <td>李四</td>
      <td>2022-06-02 09:00:00</td>
    </tr>
    <!-- more rows -->
  </tbody>
</table>

Copier après la connexion

Le tableau de cette page Web se compose de <table></ code>, il se compose de balises telles que <code><thead>, <tbody> et <tr>, parmi lesquelles <thead> est utilisé pour définir les en-têtes de colonnes du tableau, <tbody> est utilisé pour définir les données de ligne du tableau, <td></ code> est utilisé pour définir les données de la cellule, et <code> La balise <a> représente le lien vers le titre de l'article. <table>、<thead>、<tbody>和<tr>等标签组成，其中<thead>用于定义表格的列头，<tbody>用于定义表格的行数据，<td>用于定义单元格数据，而<a>标签则表示文章标题的链接。

编写爬虫代码

有了目标网页的分析结果，我们就可以编写爬虫代码来获取表格数据了。

首先，我们需要加载目标网页，然后使用file_get_html()方法将其转换成DOM对象。接着，我们可以使用find()方法来选择数据所在的元素，例如table > tbody > tr表示选择<table>的子元素<tbody>下的所有<tr>标签，即表格的所有行数据。代码如下：

$url = 'http://example.com/articles';
$html = file_get_html($url);

$rows = array();
foreach ($html->find('table > tbody > tr') as $row) {
  // 解析表格数据
}

Copier après la connexion

然后，我们需要遍历每一行数据，解析其中的单元格数据并将其保存到数组中，以便后续处理。具体来说，我们可以使用find('td')方法来选择每个行元素的子元素<td>，然后获取其文本内容或链接地址。代码如下：

$url = 'http://example.com/articles';
$html = file_get_html($url);

$rows = array();
foreach ($html->find('table > tbody > tr') as $row) {
  $data = array();
  
  // 获取单元格文本内容或链接地址
  $columns = $row->find('td');
  $data['id'] = $columns[0]->plaintext;
  $data['title'] = $columns[1]->find('a', 0)->plaintext;
  $data['link'] = $columns[1]->find('a', 0)->href;
  $data['author'] = $columns[2]->plaintext;
  $data['date'] = $columns[3]->plaintext;
    
  $rows[] = $data;
}

Copier après la connexion

上述代码中，$data数组保存当前行的数据，其中id、title、author和date分别对应表格的列，而link则是文章标题的链接地址。使用$rows[] = $data语句将$data数组添加到$rows

Tout d'abord, nous devons charger la page Web cible, puis utiliser la méthode file_get_html() pour la convertir en objet DOM. Ensuite, nous pouvons utiliser la méthode find() pour sélectionner l'élément où se trouvent les données. Par exemple, table > tbody > ;table> Toutes les balises <tr> sous l'élément enfant <tbody>, c'est-à-dire toutes les lignes de données du tableau. Le code est le suivant :

Ensuite, nous devons parcourir chaque ligne de données, analyser les données de la cellule et les enregistrer dans un tableau pour un traitement ultérieur. Plus précisément, nous pouvons utiliser la méthode find('td') pour sélectionner l'élément enfant <td> de chaque élément de ligne, puis obtenir son contenu textuel ou son adresse de lien. . Le code est le suivant :

$data

id

title code>, <code>author

date

link

$rows[] = $data

$data

$rows

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7482

Tutoriel CakePHP

1377

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian Dec 24, 2024 pm 04:42 PM

PHP 8.4 apporte plusieurs nouvelles fonctionnalités, améliorations de sécurité et de performances avec une bonne quantité de dépréciations et de suppressions de fonctionnalités. Ce guide explique comment installer PHP 8.4 ou mettre à niveau vers PHP 8.4 sur Ubuntu, Debian ou leurs dérivés. Bien qu'il soit possible de compiler PHP à partir des sources, son installation à partir d'un référentiel APT comme expliqué ci-dessous est souvent plus rapide et plus sécurisée car ces référentiels fourniront les dernières corrections de bogues et mises à jour de sécurité à l'avenir.

Date et heure de CakePHP Sep 10, 2024 pm 05:27 PM

Pour travailler avec la date et l'heure dans cakephp4, nous allons utiliser la classe FrozenTime disponible.

Discuter de CakePHP Sep 10, 2024 pm 05:28 PM

CakePHP est un framework open source pour PHP. Il vise à faciliter grandement le développement, le déploiement et la maintenance d'applications. CakePHP est basé sur une architecture de type MVC à la fois puissante et facile à appréhender. Modèles, vues et contrôleurs gu

Téléchargement de fichiers CakePHP Sep 10, 2024 pm 05:27 PM

Pour travailler sur le téléchargement de fichiers, nous allons utiliser l'assistant de formulaire. Voici un exemple de téléchargement de fichiers.

CakePHP créant des validateurs Sep 10, 2024 pm 05:26 PM

Le validateur peut être créé en ajoutant les deux lignes suivantes dans le contrôleur.

Comment configurer Visual Studio Code (VS Code) pour le développement PHP Dec 20, 2024 am 11:31 AM

Visual Studio Code, également connu sous le nom de VS Code, est un éditeur de code source gratuit – ou environnement de développement intégré (IDE) – disponible pour tous les principaux systèmes d'exploitation. Avec une large collection d'extensions pour de nombreux langages de programmation, VS Code peut être c

Guide rapide CakePHP Sep 10, 2024 pm 05:27 PM

CakePHP est un framework MVC open source. Cela facilite grandement le développement, le déploiement et la maintenance des applications. CakePHP dispose d'un certain nombre de bibliothèques pour réduire la surcharge des tâches les plus courantes.

Comment analysez-vous et traitez-vous HTML / XML dans PHP? Feb 07, 2025 am 11:57 AM

Ce tutoriel montre comment traiter efficacement les documents XML à l'aide de PHP. XML (Language de balisage extensible) est un langage de balisage basé sur le texte polyvalent conçu à la fois pour la lisibilité humaine et l'analyse de la machine. Il est couramment utilisé pour le stockage de données et

See all articles