Techniques de Web Scraping en PHP : extraction d'informations de page à partir d'URL
En PHP, vous pouvez extraire efficacement des informations de page spécifiques, telles que le titre , image et description, à partir d'une URL fournie par un utilisateur. Voici les méthodes pour y parvenir :
Utilisation de la bibliothèque Simple_html_dom :
Envisagez d'utiliser la bibliothèque simple_html_dom pour faciliter la mise en œuvre.
<code class="php">require 'simple_html_dom.php'; $html = file_get_html($url); $title = $html->find('title', 0); $image = $html->find('img', 0); echo $title->plaintext."\n"; echo $image->src;</code>
Sans bibliothèques externes :
Bien que l'utilisation de DOMDocument ne soit peut-être pas l'approche idéale, vous pouvez également éviter les bibliothèques externes avec des expressions régulières. Cependant, cette approche n'est pas recommandée pour le HTML en raison de sa complexité.
<code class="php">$data = file_get_contents($url); preg_match('/<title>([^<]+)<\/title>/i', $data, $matches); $title = $matches[1]; preg_match('/<img[^>]*src=["\']([^\'"]+)["\'][^>]*>/i', $data, $matches); $img = $matches[1]; echo $title."\n"; echo $img;</code>
Cette technique montre comment extraire le titre de la page à l'aide d'expressions régulières, puis extraire la première image de la page.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!