目次
ブログクローリングシステム、ブログクローリング
はじめに
それらのものは掴むことができますか?
ホームページ バックエンド開発 PHPチュートリアル ブログ クローリング システム、ブログ クローリング_PHP チュートリアル

ブログ クローリング システム、ブログ クローリング_PHP チュートリアル

Jul 13, 2016 am 10:08 AM

ブログクローリングシステム、ブログクローリング

はじめに

週末は何もすることがなくて暇だったので、よくアクセスする php を使ってブログ クローリング システムを作りました。もちろんブログ パークから始めました (ほら、今でもブログ パークが好きです)。 Web ページのコンテンツを取得し、通常のマッチングを使用して必要なものを取得し、データベースを保存するのは比較的簡単です。もちろん、実際のプロセスではいくつかの問題が発生します。これを行う前にすでに考えており、将来 csdn、51cto、Sina blog などのコンテンツを追加したくなった場合に、簡単に拡張できるようにしたいと考えています。

それらのものは掴むことができますか?

まず最初に言っておきますが、これは単純なクロールです。次のようなものはクロールできないものもあります。

たとえば、リンク a からクロールを開始します。深さが 1 の場合は、現在のリンクのコンテンツを取得し、指定されたルールに従ってリンク a のコンテンツからリンクを照合します。一致したリンクも深さ 1 で処理を実行します。深さはリンクの深さとレベルです。この方法でのみ、クローラーは「這う」ことができます。 ブログ クローリング システム、ブログ クローリング_PHP チュートリアル

もちろん、リンクを使用して特定のコンテンツをクロールすると、クロールできるものが非常に限られたり、クロールする前に死んでしまう可能性があります(以降のレベルがコンテンツと一致しない)ので、クロール時に複数の開始リンクを設定できますいつでも。もちろん、クロール中に重複リンクが多数発生する可能性があるため、同じコンテンツが繰り返し取得されて冗長性が生じるのを防ぐために、クロールされたリンクにマークを付ける必要があります。この情報をキャッシュするにはいくつかの変数があり、形式は次のとおりです

リーリー

リーリー

最後に、すべてのリンクが配列に結合されて返され、プログラムがループして接続内のコンテンツを取得します。上記の取得レベルが 2 と同様に、レベル 0 のリンク コンテンツが取得されており、レベル 1 のリンクを取得するためにのみ使用されます。レベル 1 のリンク コンテンツもすべて取得されており、レベル 1 のリンク コンテンツのみを取得します。リンクをレベル 2 に保存します。実際にコンテンツを取得するときは、上記のコンテンツが再度取得され、上記のハッシュ配列のステータスは使用されません。 。 。 (最適化予定)。

記事の取得にも規則性があり、ブログパークの記事内容を分析すると、基本的には非常に規則的な方法で記事のタイトルと本文を取得できることが分かりました。 リーリー

リーリー

リーリー

この時点では、好きなものを取得できます。表示効果を確認するために、通常の PC で 10 個のプロセスを開き、数時間を費やしました。わずかな最適化後にキャプチャされたコンテンツに、ブログ ガーデンの基本的な CSS コードがここに追加され、その効果とを確認できます。 リーリー

この記事の著作権は著者ifforever(luluyrt@163.com)に帰属します。記事を転載した後は、著者と原文リンクをわかりやすい位置に記載する必要があります。記事ページに記載されていない場合は、法的責任を追及する権利が留保されます。

http://www.bkjia.com/PHPjc/948224.html

tru​​ehttp://www.bkjia.com/PHPjc/948224.html技術記事ブログ クローリング システム、ブログ クローリングの紹介。週末に何もすることがなかったので、php を使用してブログ クローリング システムを作成しました。まだ好きです...
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

セッションのハイジャックはどのように機能し、どのようにPHPでそれを軽減できますか? セッションのハイジャックはどのように機能し、どのようにPHPでそれを軽減できますか? Apr 06, 2025 am 12:02 AM

セッションハイジャックは、次の手順で達成できます。1。セッションIDを取得します。2。セッションIDを使用します。3。セッションをアクティブに保ちます。 PHPでのセッションハイジャックを防ぐための方法には次のものが含まれます。1。セッション_regenerate_id()関数を使用して、セッションIDを再生します。2。データベースを介してストアセッションデータを3。

JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

phpstormでCLIモードをデバッグする方法は? phpstormでCLIモードをデバッグする方法は? Apr 01, 2025 pm 02:57 PM

phpstormでCLIモードをデバッグする方法は? PHPStormで開発するときは、PHPをコマンドラインインターフェイス(CLI)モードでデバッグする必要がある場合があります。

確固たる原則と、それらがPHP開発にどのように適用されるかを説明してください。 確固たる原則と、それらがPHP開発にどのように適用されるかを説明してください。 Apr 03, 2025 am 12:04 AM

PHP開発における固体原理の適用には、次のものが含まれます。1。単一責任原則(SRP):各クラスは1つの機能のみを担当します。 2。オープンおよびクローズ原理(OCP):変更は、変更ではなく拡張によって達成されます。 3。Lischの代替原則(LSP):サブクラスは、プログラムの精度に影響を与えることなく、基本クラスを置き換えることができます。 4。インターフェイス分離原理(ISP):依存関係や未使用の方法を避けるために、細粒インターフェイスを使用します。 5。依存関係の反転原理(DIP):高レベルのモジュールと低レベルのモジュールは抽象化に依存し、依存関係噴射を通じて実装されます。

システムの再起動後にUnixSocketの権限を自動的に設定する方法は? システムの再起動後にUnixSocketの権限を自動的に設定する方法は? Mar 31, 2025 pm 11:54 PM

システムが再起動した後、UnixSocketの権限を自動的に設定する方法。システムが再起動するたびに、UnixSocketの許可を変更するために次のコマンドを実行する必要があります:sudo ...

PHPでの後期静的結合を説明します(静的::)。 PHPでの後期静的結合を説明します(静的::)。 Apr 03, 2025 am 12:04 AM

静的結合(静的::) PHPで後期静的結合(LSB)を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1)解析プロセスは実行時に実行されます。2)継承関係のコールクラスを検索します。3)パフォーマンスオーバーヘッドをもたらす可能性があります。

フレームワークセキュリティ機能:脆弱性から保護します。 フレームワークセキュリティ機能:脆弱性から保護します。 Mar 28, 2025 pm 05:11 PM

記事では、入力検証、認証、定期的な更新など、脆弱性から保護するためのフレームワークの重要なセキュリティ機能について説明します。

See all articles