目次
PHP爬取糗事百科首页糗事
ホームページ php教程 php手册 PHP爬取糗事百科首页糗事

PHP爬取糗事百科首页糗事

Jun 13, 2016 am 09:03 AM
百科事典 表紙

PHP爬取糗事百科首页糗事

突然想获取一些网上的数据来玩玩,因为有SAE的MySql数据库,让它在那呆着没有什么卵用!于是就开始用PHP编写一个爬取糗事百科首页糗事的小程序,数据都保存在MySql中,岂不是很好玩!

说干就干!首先确定思路

获取HTML源码--->解析HTML--->保存到数据库

没有什么难的

1、创建PHP文件“getDataToDB.php”,

2、获取指定URL的HTML源码

这里我用的是curl函数,详细内容参见PHP手册

代码为

 

<span new="" style="font-family:Times">// 获取对应链接的HTMLCODE
function GetHtmlCode($url) {
	$ch = curl_init (); // 初始化一个cur对象
	curl_setopt ( $ch, CURLOPT_URL, $url ); // 设置需要抓取的网页
	curl_setopt ( $ch, CURLOPT_RETURNTRANSFER, 1 ); // 设置crul参数,要求结果保存到字符串中还是输出到屏幕上
	curl_setopt ( $ch, CURLOPT_CONNECTTIMEOUT, 1000 ); // 设置链接延迟
	$HtmlCode = curl_exec ( $ch ); // 运行curl,请求网页
	return $HtmlCode;
}</span>
ログイン後にコピー
3、引入第三方文件’simple_html_dom.php‘来解析HTML

这里我没有能力使用正则表达式,就在网上海搜,终于找到这个,就像Java使用Jsoup(使用Jsoup解析滁州学院官网获取新闻列表)一样,具体参见BLOG

代码如下

<span new="" style="font-family:Times">function getFmlDataToDB() {
	$link = mysql_connect ( SAE_MYSQL_HOST_M . &#39;:&#39; . SAE_MYSQL_PORT, SAE_MYSQL_USER, SAE_MYSQL_PASS );
	// 获取源码
	$html = str_get_html ( GetHtmlCode ( http://www.qiushibaike.com/ ) );
	
	if ($link) {
		mysql_select_db ( SAE_MYSQL_DB, $link );
		mysql_query ( &#39;set names utf8&#39; );
		// class=article block untagged mb15
		foreach ( $html->find ( &#39;div[class=article block untagged mb15]&#39; ) as $per ) {
			
			$z = null;
			$t = null;
			$w = null;
			$d = null;
			$p = null;
			$ds = null;
			$ps = null;
			
			// //作者
			$author = $per->find ( &#39;div[class=author]&#39; );
			if ($author != null) {
				$a = $author [0]->find ( &#39;a&#39; );
				$z = $a [1]->innertext;
			} else {
				$z = &#39;no author&#39;;
			}
			
			// 头像链接
			
			if ($author != null) {
				$icon = $author [0]->find ( &#39;a&#39; );
				$t = $icon [0]->src->innertext;
			} else {
				$t = &#39;...............&#39;;
			}
			
			// 文章内容
			$content = $per->find ( &#39;div[class=content]&#39; );
			$w = $content [0]->innertext;
			
			// 点赞数
			$vote1 = $per->find ( &#39;div[class=stats]&#39; );
			$vote2 = $vote1 [0]->find ( &#39;span[class=stats-vote]&#39; );
			$vote3 = $vote2 [0]->find ( &#39;i[class=number]&#39; );
			
			$d = $vote3 [0]->innertext;
			// 评论数
			$comments1 = $vote1 [0]->find ( &#39;span[class=stats-comments]&#39; );
			$comments2 = $comments1 [0]->find ( &#39;a[class=qiushi_comments]&#39; );
			$comments3 = $comments2 [0]->find ( &#39;i[class=number]&#39; );
			$p = $comments3 [0]->innertext;
			// 顶 数
			$up_down = $per->find ( &#39;div[class=stats-buttons bar clearfix]&#39; );
			
			$up_down1 = $up_down [0]->find ( &#39;ul&#39; );
			$li = $up_down1 [0]->find ( &#39;li&#39; );
			$up = $li [0]->find ( &#39;span[class=number hidden]&#39; );
			$ds = $up [0]->innertext;
			// 拍 数
			$down = $li [1]->find ( &#39;span[class=number hidden]&#39; );
			$ps = $down [0]->innertext;

		}
	} else {
		echo &#39;数据库链接KO&#39;;
	}
}</span>
ログイン後にコピー
这个代码写的有点纠结,我试了一下不能直接获取子节点的数据,只能从外层一层一层的剥开解析,如果有新的写法,我会更新,也请各位看官看看。

4、创建数据库,将数据插入到数据库中

这里我使用的SAE中的MySQL,具体的连接方发参见使用PHP连接SAE中的MySql数据库

需要注意的就是编码格式,区要在执行语句前加上这样一句话

<span style="font-family:Microsoft">mysql_query ( &#39;set names utf8&#39; );</span>
ログイン後にコピー
核心代码如下:

<span style="font-family:Microsoft">			$sql = INSERT INTO `app_bmhjqs`.`db_fml` (`id`, `author`, `icon_url`, `content`, `vote`, `comments`, `up`, `down`) VALUES (NULL, &#39;$z&#39;, &#39;$t&#39;, &#39;$w&#39;, &#39;$d&#39;, &#39;$p&#39;, &#39;$ds&#39;, &#39;$ps&#39;);;
			// 解决乱码
			mysql_query ( &#39;set names utf8&#39; );
			$result = mysql_query ( $sql );</span>
ログイン後にコピー

这样一来,获取--->解析--->插入就完成了,效果就是运行一次PHP文件,数据库就添加了糗事百科首页上的糗事!我想可不可以写个定时器,每隔一定时间就运行一次代码,这一点在java我可以实现,在php我不会,毕竟是个没长毛的小鸟!百度吧。。。搜到这样的写法

<span new="" style="font-family:Times">// 定时器
// ignore_user_abort (); // run script. in background
// set_time_limit ( 0 ); // run script. forever
// $interval = 30; // do every 15 minutes..

// do {
// 	echo date ( &#39;Y-m-d H:i:s&#39;, time () );
// 	echo &#39;写入数据库&#39;;
// 	//getFmlDataToDB ();
	
// } while ( true );</span>
ログイン後にコピー
在文件里加上这样的代码,正好在学校断网前,发布到了SAE上,我没有测试!只能等到第二天来查看结果了!

 

今天早上,我迫不及待的打开电脑,打开SAE数据库,情况如下:

额滴神!受不鸟了,赶紧把定时器关掉了,写了个按钮触发事件!这样下去,数据库会被挤满的!

 

 

 

 


このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Google Chromeホームページの設定方法 Google Chromeホームページの設定方法 Mar 02, 2024 pm 04:04 PM

Google Chrome ホームページを設定するにはどうすればよいですか? Google Chrome は現在最も人気のある Web ブラウザ ソフトウェアです。このブラウザには、ユーザーが好むシンプルで効率的な機能が備わっています。ブラウザを使用するとき、人によって設定の好みが異なります。Google Chrome を使用することを好む人もいます。ブラウザはデフォルトのホームページとして設定されており、また、ホームページを他の検索エンジンと同じように設定したい人もいます。では、どこに設定すればよいのでしょうか?次に、エディターが Google Chrome のホームページを簡単に設定する方法を紹介します。 Google Chrome ホームページをすばやく設定する方法 1. Google Chrome を開きます (図を参照)。 2. インターフェースの右上隅にあるメニュー ボタンをクリックします (図を参照)。 3. [設定] オプションを選択します (図を参照)。 4. 設定メニューで、「検索エンジン」を見つけます(たとえば、

Google Chrome ホームページが 360 に変更された場合はどうすればよいですか? Google Chrome ホームページを復元する Google Chrome ホームページが 360 に変更された場合はどうすればよいですか? Google Chrome ホームページを復元する Mar 15, 2024 am 08:16 AM

Google Chrome のホームページが 360 に変わったらどうすればよいですか? Google Chrome はシンプルで便利なブラウザですが、使用中にシンプルなホームページが 360 度のホームページに置き換わってしまったという友人も多くいます。元のスタイルに戻したい場合は、どのように設定すればよいでしょうか?以下では、エディターが Google Chrome ホームページを復元する方法を説明します。解決策: 1. まず、Google Chrome を開きます。 2. デフォルトに変更する場合は、右上隅にある 3 つの点をクリックします。 3. [設定]をクリックして設定ページを開きます。 4. [起動]をクリックします。 5. 図に示すように、[特定の Web ページまたは Web ページのグループを開きます] ここに 360 Navigation の URL があります。 6. 360 ナビゲーションの右側にある 3 つの点をクリックします。 7. [削除]をクリックします。​

UniAppはホームページとナビゲーションページの設計・開発手法を実現します UniAppはホームページとナビゲーションページの設計・開発手法を実現します Jul 07, 2023 pm 09:09 PM

ホーム ページとナビゲーション ページを実現する UniApp の設計と開発方法 1. はじめに UniApp は、Vue.js フレームワーク上に構築されたクロスプラットフォーム開発ツールであり、一連のコードをコンパイルして複数のプラットフォーム用のアプリケーションを作成できます。 UniApp では、アプリケーションを開発するときにホームページとナビゲーション ページの 2 つのページが必要ですが、この記事では、UniApp でこれら 2 つのページを設計および開発する方法と、対応するコード例を紹介します。 2. ホームページのデザインと開発方法 ページ構造 UniApp のホームページは通常、タイトルバー、カルーセル、分類で構成されます。

HTMLサブページからトップページに戻る方法 HTMLサブページからトップページに戻る方法 Nov 15, 2023 am 10:33 AM

HTML サブページからホームページに戻る方法: 1. ハイパーリンクを使用する; 2. JavaScript を使用する; 3. ブラウザ履歴を使用する。詳細な導入: 1. ハイパーリンクを使用し、サブページにハイパーリンクを追加し、ホーム ページの URL にリンクし、サブページの下部またはナビゲーション バーに「ホーム ページに戻る」リンクを追加します。 「<a>」タグを使用してハイパーリンクを作成し、「href」属性にホームページのURLを設定します; 2. JavaScriptを使用して、JavaScriptコードなどでホームページに戻る機能を実装します。

「宝探しと魔王打倒の冒険」ホームページのNPC機能一覧 「宝探しと魔王打倒の冒険」ホームページのNPC機能一覧 Feb 10, 2024 am 11:00 AM

「冒険宝探しと魔王打倒」は西洋ファンタジーを背景にしたローグライク戦争チェス ゲームです。新しいゲームはオンラインです。新規プレイヤーは参入時に多くの問題に遭遇しています。ホームページ上の 4 人の NPC の機能は何ですか?次に、エディターは、「冒険宝探しと魔王打倒」の 4 つのホームページ NPC 機能の共有リストを提供します。冒険の宝探し、そして悪魔を倒す ホームページ NPC の機能 4 つのホームページ NPC の機能を紹介します: 1. 冒険グループ: 冒険グループのアップグレード、シーズン冒険グループのアップグレード、装備 (バックパック) の上限アップグレード。 , いくつかの無駄な装備を片付けることを忘れないでください。そうしないと、グリッドスペースを占有します)、キャラクター数の上限がアップグレードされます(キャラクタースロットは最初は8つしかなく、金色のキャラクターはそれを超えることができます) 2. トレーナー:キャラクターの育成(パープルとゴールドが育成可能)、アップグレード

360ブラウザのホームページの設定方法 360ブラウザのホームページの設定方法 Apr 07, 2024 pm 01:40 PM

360 ブラウザのホームページを設定するにはどうすればよいですか? 360 ブラウザは非常に安全な Web ブラウザ ソフトウェアです。このブラウザには豊富な機能とサービスがあります。多くのユーザーが仕事でこのブラウザを使用することを好みます。360 ブラウザのホームページはコンテンツが非常に豊富で、多くのユーザーが非常に興味を持っています。 360 ブラウザのホームページはどのように設定すればよいでしょうか?次に、編集者が360ブラウザホームページの設定方法をご紹介しますので、ぜひご覧ください。 360 ブラウザのホームページの設定方法の概要 1. まず、360 セキュア ブラウザのメイン インターフェイスに入る必要があります (図を参照)。 2. 右上隅の [スリー ストライプ] オプションをクリックし、ドロップダウン メニューに表示される [設定] オプションをクリックして、設定インターフェイスに入ります。

ホームページ上のカルーセル機能を備えた Java スイッチ食料品ショッピング システムを設計する方法 ホームページ上のカルーセル機能を備えた Java スイッチ食料品ショッピング システムを設計する方法 Nov 01, 2023 am 11:20 AM

ホームページにカルーセル機能を備えた Java switch 食料品ショッピング システムを設計する方法 インターネットの発展に伴い、人々のライフスタイルも常に変化しています。食料品も含めてオンラインショッピングを利用する人が増えています。ユーザーのニーズを満たすために、多くの食料品ショッピング プラットフォームが食料品のオンライン注文機能を開始しました。これらのプラットフォームでは、ホームページのカルーセルは非常に重要な機能の 1 つです。この記事では、ホームページにカルーセル機能を備えた Java スイッチの食料品ショッピング システムを設計する方法を紹介します。 1. 機能要件の分析 ホームページのカルーセル機能を設計する前に、機能要件を分析して理解する必要があります。

コンドル博物館百科事典に関する質問への回答ガイド Si Ling Shui Yuan コンドル博物館百科事典に関する質問への回答ガイド Si Ling Shui Yuan Mar 28, 2024 pm 06:31 PM

自然史百科事典 Si Ling Shui Yuan の答えは、ゲーム内の自然史百科事典の解答チャレンジです。では、この解答チャレンジの答えは何でしょうか?本日、編集者は、この自然史百科事典の質問に対する答えをすべての人に整理し、その答えの詳細な場所を提供しました。これは、この自然史百科事典の質問に答えるという課題をよりよく完了するのに役立ちます。詳しい内容はこちらの記事でご覧いただけます。博物学百科事典と思陵水源に関するすべての質問と回答を見てみましょう。コンドル博物館百科事典 Si Ling Shui Yuan に関する質問への回答ガイド 1. まず、下の写真に示す場所に来ます。 2. ここでMeng Gongという名前のキャラクターを見つけて会話すると、Silingshuiyuanの質問応答チャレンジに参加できます。 1. 霊水園を建てたのは誰ですか?答え:[Wanyan Jing] 2. ショー主催者が再び逮捕された

See all articles