如何进行网页抓取

Linda Hamilton
发布: 2024-10-17 19:08:02
原创
276 人浏览过

How to Web Scrape

使用 PHP 进行网页抓取

问题:

如何提取标题、来自指定 URL 的图像、文本或描述,无需 PHP 中的外部库?

答案:

要简化此任务,请考虑使用 simple_html_dom 库。以下示例演示了如何使用此库获取标题和第一张图像:

<code class="php">require 'simple_html_dom.php';

$html = file_get_html('http://www.google.com/');
$title = $html->find('title', 0);
$image = $html->find('img', 0);

echo $title->plaintext . "<br>\n";
echo $image->src;</code>
登录后复制

如果您希望避免使用外部库,则可以使用正则表达式提取数据,但不建议在 HTML 中使用此方法。

<code class="php">$data = file_get_contents('http://www.google.com/');

preg_match('/<title>([^<]+)<\/title>/i', $data, $matches);
$title = $matches[1];

preg_match('/<img[^>]*src=["\']([^\'"']+)["\'][^>]*>/i', $data, $matches);
$img = $matches[1];

echo $title . "<br>\n";
echo $img;</code>
登录后复制

以上是如何进行网页抓取的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!