ホームページ バックエンド開発 PHPチュートリアル PHP は、「恥ずかしいこと百科事典」のホームページにある恥ずかしいことをクロールします。

PHP は、「恥ずかしいこと百科事典」のホームページにある恥ずかしいことをクロールします。

Jun 13, 2016 pm 12:20 PM
find gt mysql quot

PHP が「恥ずかしいこと百科事典」のホームページをクロールします

突然、趣味でオンライン データを取得したいと思いました。SAE の MySql データベースがあり、そこに置いておくのは役に立たないからです。そこで、PHP を使って、恥ずかしいもの百科事典のホームページにある恥ずかしいものをクロールする小さなプログラムを書き始めました。データはすべて MySql に保存されていました。

とにかくやってみよう!まずアイデアを決定します

HTML ソース コードを取得 ---> HTML を解析 ---> データベースに保存

難しいことはありません

1. PHP ファイル「getDataToDB.php」を作成します、

2.指定された URL の HTML ソースコードを取得します

ここでは、curl 関数を使用します。詳しくは、PHP マニュアルを参照してください

コードは

<span style="font-family:Times New Roman;font-size:14px;">// 获取对应链接的HTMLCODEfunction GetHtmlCode($url) {	$ch = curl_init (); // 初始化一个cur对象	curl_setopt ( $ch, CURLOPT_URL, $url ); // 设置需要抓取的网页	curl_setopt ( $ch, CURLOPT_RETURNTRANSFER, 1 ); // 设置crul参数,要求结果保存到字符串中还是输出到屏幕上	curl_setopt ( $ch, CURLOPT_CONNECTTIMEOUT, 1000 ); // 设置链接延迟	$HtmlCode = curl_exec ( $ch ); // 运行curl,请求网页	return $HtmlCode;}</span>
ログイン後にコピー
3. HTML を解析するためのサードパーティ ファイル 'simple_html_dom.php' を導入します

ここで正規表現を使用する機能があるので、オンラインで検索し、最終的にこれを見つけました。Java が Jsoup を使用するのと同じです (Jsoup を使用してChuzhou University の公式 Web サイトを解析し、ニュース リストを取得します)。詳細については、BLOG

コードは次のとおりです

<span style="font-family:Times New Roman;font-size:14px;">function getFmlDataToDB() {	$link = mysql_connect ( SAE_MYSQL_HOST_M . ':' . SAE_MYSQL_PORT, SAE_MYSQL_USER, SAE_MYSQL_PASS );	// 获取源码	$html = str_get_html ( GetHtmlCode ( "http://www.qiushibaike.com/" ) );		if ($link) {		mysql_select_db ( SAE_MYSQL_DB, $link );		mysql_query ( 'set names utf8' );		// class="article block untagged mb15"		foreach ( $html->find ( 'div[class=article block untagged mb15]' ) as $per ) {						$z = null;			$t = null;			$w = null;			$d = null;			$p = null;			$ds = null;			$ps = null;						// //作者			$author = $per->find ( 'div[class=author]' );			if ($author != null) {				$a = $author [0]->find ( 'a' );				$z = $a [1]->innertext;			} else {				$z = 'no author';			}						// 头像链接						if ($author != null) {				$icon = $author [0]->find ( 'a' );				$t = $icon [0]->src->innertext;			} else {				$t = '...............';			}						// 文章内容			$content = $per->find ( 'div[class=content]' );			$w = $content [0]->innertext;						// 点赞数			$vote1 = $per->find ( 'div[class=stats]' );			$vote2 = $vote1 [0]->find ( 'span[class=stats-vote]' );			$vote3 = $vote2 [0]->find ( 'i[class=number]' );						$d = $vote3 [0]->innertext;			// 评论数			$comments1 = $vote1 [0]->find ( 'span[class=stats-comments]' );			$comments2 = $comments1 [0]->find ( 'a[class=qiushi_comments]' );			$comments3 = $comments2 [0]->find ( 'i[class=number]' );			$p = $comments3 [0]->innertext;			// 顶 数			$up_down = $per->find ( 'div[class=stats-buttons bar clearfix]' );						$up_down1 = $up_down [0]->find ( 'ul' );			$li = $up_down1 [0]->find ( 'li' );			$up = $li [0]->find ( 'span[class=number hidden]' );			$ds = $up [0]->innertext;			// 拍 数			$down = $li [1]->find ( 'span[class=number hidden]' );			$ps = $down [0]->innertext;		}	} else {		echo '数据库链接KO';	}}</span>
ログイン後にコピー
このコードは少し複雑に書いてみましたが、データを取得できませんでした。子ノードの外側のレイヤーを直接剥がしてレイヤーごとに解析することしかできませんでした。新しい書き方があれば、見てみましょう。

4. データベースを作成し、データベースにデータを挿入します。

ここでは SAE で MySQL を使用します。具体的な接続方法については、SAE で PHP を使用して MySql データベースに接続します

注意する必要があるのはエンコード形式です。この文は実行文の前に追加する必要があります

コアコードは次のとおりです:

<span style="font-family:Microsoft YaHei;font-size:14px;">mysql_query ( 'set names utf8' );</span>
ログイン後にコピー

<span style="font-family:Microsoft YaHei;font-size:14px;">			$sql = "INSERT INTO `app_bmhjqs`.`db_fml` (`id`, `author`, `icon_url`, `content`, `vote`, `comments`, `up`, `down`) VALUES (NULL, '$z', '$t', '$w', '$d', '$p', '$ds', '$ps');";			// 解决乱码			mysql_query ( 'set names utf8' );			$result = mysql_query ( $sql );</span>
ログイン後にコピー
このようにして、get--->parse- -->挿入が完了しました。PHP ファイルを 1 回実行すると、恥ずかしいこと百科事典のホームページにある恥ずかしいことがデータベースに追加されます。一定の間隔でコードを実行するタイマーを作成できるかどうかは疑問ですが、Java では実行できますが、PHP では実行できません。結局のところ、私は毛のない鳥なのです。百度。 。 。私はこの書き込みメソッド

を見つけて、学校が切断される直前にこのコードをファイルに追加しました。テストはしていませんでした。結果を確認するには翌日まで待つしかありません。

<span style="font-family:Times New Roman;font-size:14px;">// 定时器// ignore_user_abort (); // run script. in background// set_time_limit ( 0 ); // run script. forever// $interval = 30; // do every 15 minutes..// do {// 	echo date ( 'Y-m-d H:i:s', time () );// 	echo '写入数据库';// 	//getFmlDataToDB ();	// } while ( true );</span>
ログイン後にコピー
今朝、待ちきれずにコンピューターの電源を入れ、SAE データベースを開きました。状況は次のとおりです:

なんと!もう我慢できなくなったので、すぐにタイマーをオフにして、イベントをトリガーするボタンを書きました。このままではデータベースが混雑してしまいます。

さて、PHP で恥ずかしいこと百科事典のトップページをクロールするという恥ずかしい作業はこれで完了です

このブログがそう感じたなら役に立ちました。ここをクリックしてください。




このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

MySQL:初心者向けのデータ管理の容易さ MySQL:初心者向けのデータ管理の容易さ Apr 09, 2025 am 12:07 AM

MySQLは、インストールが簡単で、強力で管理しやすいため、初心者に適しています。 1.さまざまなオペレーティングシステムに適した、単純なインストールと構成。 2。データベースとテーブルの作成、挿入、クエリ、更新、削除などの基本操作をサポートします。 3.参加オペレーションやサブクエリなどの高度な機能を提供します。 4.インデックス、クエリの最適化、テーブルパーティション化により、パフォーマンスを改善できます。 5。データのセキュリティと一貫性を確保するために、バックアップ、リカバリ、セキュリティ対策をサポートします。

Navicatプレミアムの作成方法 Navicatプレミアムの作成方法 Apr 09, 2025 am 07:09 AM

NAVICATプレミアムを使用してデータベースを作成します。データベースサーバーに接続し、接続パラメーターを入力します。サーバーを右クリックして、[データベースの作成]を選択します。新しいデータベースの名前と指定された文字セットと照合を入力します。新しいデータベースに接続し、オブジェクトブラウザにテーブルを作成します。テーブルを右クリックして、データを挿入してデータを挿入します。

NAVICATでデータベースパスワードを取得できますか? NAVICATでデータベースパスワードを取得できますか? Apr 08, 2025 pm 09:51 PM

NAVICAT自体はデータベースパスワードを保存せず、暗号化されたパスワードのみを取得できます。解決策:1。パスワードマネージャーを確認します。 2。NAVICATの「パスワードを記憶する」機能を確認します。 3.データベースパスワードをリセットします。 4.データベース管理者に連絡してください。

MySQL:簡単な学習のためのシンプルな概念 MySQL:簡単な学習のためのシンプルな概念 Apr 10, 2025 am 09:29 AM

MySQLは、オープンソースのリレーショナルデータベース管理システムです。 1)データベースとテーブルの作成:createdatabaseおよびcreateTableコマンドを使用します。 2)基本操作:挿入、更新、削除、選択。 3)高度な操作:参加、サブクエリ、トランザクション処理。 4)デバッグスキル:構文、データ型、およびアクセス許可を確認します。 5)最適化の提案:インデックスを使用し、選択*を避け、トランザクションを使用します。

MariadBのNAVICATでデータベースパスワードを表示する方法は? MariadBのNAVICATでデータベースパスワードを表示する方法は? Apr 08, 2025 pm 09:18 PM

Passwordが暗号化された形式で保存されているため、MariadbのNavicatはデータベースパスワードを直接表示できません。データベースのセキュリティを確保するには、パスワードをリセットするには3つの方法があります。NAVICATを介してパスワードをリセットし、複雑なパスワードを設定します。構成ファイルを表示します(推奨されていない、高リスク)。システムコマンドラインツールを使用します(推奨されません。コマンドラインツールに習熟する必要があります)。

NavicatでMySQLへの新しい接続を作成する方法 NavicatでMySQLへの新しい接続を作成する方法 Apr 09, 2025 am 07:21 AM

手順に従って、NAVICATで新しいMySQL接続を作成できます。アプリケーションを開き、新しい接続(CTRL N)を選択します。接続タイプとして「mysql」を選択します。ホスト名/IPアドレス、ポート、ユーザー名、およびパスワードを入力します。 (オプション)Advanced Optionsを構成します。接続を保存して、接続名を入力します。

MySQLおよびSQL:開発者にとって不可欠なスキル MySQLおよびSQL:開発者にとって不可欠なスキル Apr 10, 2025 am 09:30 AM

MySQLとSQLは、開発者にとって不可欠なスキルです。 1.MYSQLはオープンソースのリレーショナルデータベース管理システムであり、SQLはデータベースの管理と操作に使用される標準言語です。 2.MYSQLは、効率的なデータストレージと検索機能を介して複数のストレージエンジンをサポートし、SQLは簡単なステートメントを通じて複雑なデータ操作を完了します。 3.使用の例には、条件によるフィルタリングやソートなどの基本的なクエリと高度なクエリが含まれます。 4.一般的なエラーには、SQLステートメントをチェックして説明コマンドを使用することで最適化できる構文エラーとパフォーマンスの問題が含まれます。 5.パフォーマンス最適化手法には、インデックスの使用、フルテーブルスキャンの回避、参加操作の最適化、コードの読み取り可能性の向上が含まれます。

NAVICATでSQLを実行する方法 NAVICATでSQLを実行する方法 Apr 08, 2025 pm 11:42 PM

NAVICATでSQLを実行する手順:データベースに接続します。 SQLエディターウィンドウを作成します。 SQLクエリまたはスクリプトを書きます。 [実行]ボタンをクリックして、クエリまたはスクリプトを実行します。結果を表示します(クエリが実行された場合)。

See all articles