Maison développement back-end tutoriel php php抓取网页的若干实现模式

php抓取网页的若干实现模式

Jun 13, 2016 am 11:55 AM
lines nbsp php string url

php抓取网页的若干实现方式

php抓取网页的若干实现方式



最近在做一个笑话平台,包含web版、安装版,由于没有笑话资源,所以就用php写了一个后台程序,每天定时从各大笑话网站抓取数据,下面整理了一些php抓取网页内容的基本方式。


一、 PHP抓取页面的主要方法:

1. file()函数    2. file_get_contents()函数  3. fopen()->fread()->fclose()模式  4.curl方式  5. fsockopen()函数 socket模式  6. 使用插件。


二、PHP解析html或xml代码主要方式:

1. 正则表达式    2. PHP DOMDocument对象  3. 插件(如:PHP Simple HTML DOM Parser)

如果你对以上内容已经很了解,以下内容可以飘过……

PHP抓取页面

1. file()函数


<?php $url='';$lines_array=file($url);$lines_string=implode('',$lines_array);echo htmlspecialchars($lines_string);?>
Copier après la connexion


2. file_get_contents()函数
使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置 allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

<span style="font-size:18px;"><?php $url='';$lines_string=file_get_contents($url);echo htmlspecialchars($lines_string);?></span>
Copier après la connexion


3. fopen()->fread()->fclose()模式

<span style="font-size:24px;"><?php $url='';$handle=fopen($url,"rb");$lines_string="";do{$data=fread($handle,1024);if(strlen($data)==0){break;}$lines_string.=$data;}while(true);fclose($handle);echo htmlspecialchars($lines_string);?></span>
Copier après la connexion


4. curl方式
使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而且需 要拷贝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下;Linux下要安装curl扩展。

<?php $url='';$ch=curl_init();$timeout=5;curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);$lines_string=curl_exec($ch);curl_close($ch);echo htmlspecialchars($lines_string);?>
Copier après la connexion


5. fsockopen()函数 socket模式
socket模式能否正确执行,也跟服务器的设置有关系,具体可以通过phpinfo查看服务器开启了哪些通信协议,比如我的本地php socket没开启http,只能使用udp测试一下了。

<?php $fp = fsockopen("udp://127.0.0.1", 13, $errno, $errstr);if (!$fp) {echo "ERROR: $errno - $errstr<br />\n";} else {fwrite($fp, "\n");echo fread($fp, 26);fclose($fp);}?&gt;
Copier après la connexion


6. 插件
网上应该有比较多的插件,snoopy插件是在网上搜到的,有兴趣的可以研究一下。

PHP解析xml(html)

1. 正则表达式:

<?php $url='';$lines_string=file_get_contents($url);eregi('<title>(.*)',$lines_string,$title);echo htmlspecialchars($title[0]);?&gt;
Copier après la connexion


2. PHP DOMDocument()对象
如果远程的html或xml存在语法错误,php在解析dom的时候会报错。

<?php $url='';$html=new DOMDocument();$html->loadHTMLFile($url);$title=$html-&gt;getElementsByTagName('title');echo $title-&gt;item(0)-&gt;nodeValue;?&gt;
Copier après la connexion


3. 插件
本文以PHP Simple HTML DOM Parser为例,进行简单介绍,simple_html_dom的语法类似jQuery,它让php操作dom,就像使用jQuery操作dom一样的简单。

<?php $url='';include_once('../simplehtmldom/simple_html_dom.php');$html=file_get_html($url);$title=$html->find('title');echo $title[0]-&gt;plaintext;?&gt;
Copier après la connexion




Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud

Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Article chaud

Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Tags d'article chaud

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian Dec 24, 2024 pm 04:42 PM

Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian

Date et heure de CakePHP Date et heure de CakePHP Sep 10, 2024 pm 05:27 PM

Date et heure de CakePHP

Configuration du projet CakePHP Configuration du projet CakePHP Sep 10, 2024 pm 05:25 PM

Configuration du projet CakePHP

Téléchargement de fichiers CakePHP Téléchargement de fichiers CakePHP Sep 10, 2024 pm 05:27 PM

Téléchargement de fichiers CakePHP

Routage CakePHP Routage CakePHP Sep 10, 2024 pm 05:25 PM

Routage CakePHP

Discuter de CakePHP Discuter de CakePHP Sep 10, 2024 pm 05:28 PM

Discuter de CakePHP

Guide rapide CakePHP Guide rapide CakePHP Sep 10, 2024 pm 05:27 PM

Guide rapide CakePHP

Comment configurer Visual Studio Code (VS Code) pour le développement PHP Comment configurer Visual Studio Code (VS Code) pour le développement PHP Dec 20, 2024 am 11:31 AM

Comment configurer Visual Studio Code (VS Code) pour le développement PHP

See all articles