ブログ クローリング システム、ブログ クローリング_PHP チュートリアル
ブログクローリングシステム、ブログクローリング
はじめに
週末は何もすることがなくて暇だったので、よくアクセスする php を使ってブログ クローリング システムを作りました。もちろんブログ パークから始めました (ほら、今でもブログ パークが好きです)。 Web ページのコンテンツを取得し、通常のマッチングを使用して必要なものを取得し、データベースを保存するのは比較的簡単です。もちろん、実際のプロセスではいくつかの問題が発生します。これを行う前にすでに考えており、将来 csdn、51cto、Sina blog などのコンテンツを追加したくなった場合に、簡単に拡張できるようにしたいと考えています。
それらのものは掴むことができますか?
まず最初に言っておきますが、これは単純なクロールです。次のようなものはクロールできないものもあります。
たとえば、リンク a からクロールを開始します。深さが 1 の場合は、現在のリンクのコンテンツを取得し、指定されたルールに従ってリンク a のコンテンツからリンクを照合します。一致したリンクも深さ 1 で処理を実行します。深さはリンクの深さとレベルです。この方法でのみ、クローラーは「這う」ことができます。
リーリー
リーリー
最後に、すべてのリンクが配列に結合されて返され、プログラムがループして接続内のコンテンツを取得します。上記の取得レベルが 2 と同様に、レベル 0 のリンク コンテンツが取得されており、レベル 1 のリンクを取得するためにのみ使用されます。レベル 1 のリンク コンテンツもすべて取得されており、レベル 1 のリンク コンテンツのみを取得します。リンクをレベル 2 に保存します。実際にコンテンツを取得するときは、上記のコンテンツが再度取得され、上記のハッシュ配列のステータスは使用されません。 。 。 (最適化予定)。
記事の取得にも規則性があり、ブログパークの記事内容を分析すると、基本的には非常に規則的な方法で記事のタイトルと本文を取得できることが分かりました。 リーリー
リーリー
リーリーこの時点では、好きなものを取得できます。表示効果を確認するために、通常の PC で 10 個のプロセスを開き、数時間を費やしました。わずかな最適化後にキャプチャされたコンテンツに、ブログ ガーデンの基本的な CSS コードがここに追加され、その効果とを確認できます。 リーリー この記事の著作権は著者ifforever(luluyrt@163.com)に帰属します。記事を転載した後は、著者と原文リンクをわかりやすい位置に記載する必要があります。記事ページに記載されていない場合は、法的責任を追及する権利が留保されます。
http://www.bkjia.com/PHPjc/948224.html

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











セッションハイジャックは、次の手順で達成できます。1。セッションIDを取得します。2。セッションIDを使用します。3。セッションをアクティブに保ちます。 PHPでのセッションハイジャックを防ぐための方法には次のものが含まれます。1。セッション_regenerate_id()関数を使用して、セッションIDを再生します。2。データベースを介してストアセッションデータを3。

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

phpstormでCLIモードをデバッグする方法は? PHPStormで開発するときは、PHPをコマンドラインインターフェイス(CLI)モードでデバッグする必要がある場合があります。

PHP開発における固体原理の適用には、次のものが含まれます。1。単一責任原則(SRP):各クラスは1つの機能のみを担当します。 2。オープンおよびクローズ原理(OCP):変更は、変更ではなく拡張によって達成されます。 3。Lischの代替原則(LSP):サブクラスは、プログラムの精度に影響を与えることなく、基本クラスを置き換えることができます。 4。インターフェイス分離原理(ISP):依存関係や未使用の方法を避けるために、細粒インターフェイスを使用します。 5。依存関係の反転原理(DIP):高レベルのモジュールと低レベルのモジュールは抽象化に依存し、依存関係噴射を通じて実装されます。

システムが再起動した後、UnixSocketの権限を自動的に設定する方法。システムが再起動するたびに、UnixSocketの許可を変更するために次のコマンドを実行する必要があります:sudo ...

静的結合(静的::) PHPで後期静的結合(LSB)を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1)解析プロセスは実行時に実行されます。2)継承関係のコールクラスを検索します。3)パフォーマンスオーバーヘッドをもたらす可能性があります。

記事では、入力検証、認証、定期的な更新など、脆弱性から保護するためのフレームワークの重要なセキュリティ機能について説明します。
