前回の記事「PHPベースのデータ収集・保管プログラム(2)」では、ニュース情報のリストデータの収集について触れました。次に、特定のニュース コンテンツの収集について説明します
これは、前のブログの最終的なデータ テーブルのスクリーンショットです:
次のステップは、データベースから収集する必要がある URL を読み取り、ページをクロールすることです
新しいコンテンツテーブルを作成する
ただし、注意すべき点は、id=10 の場合、id=9、id=11 など、データ テーブルに id の不連続性が存在する可能性があるため、id を増やして URL を収集する方法は使用できなくなったことです。収集された場合、URL が空白であるため、空のフィールドが収集される可能性があります。
ここで使用される手法の 1 つは、データベースのクエリ ステートメントです。最初のデータを収集するときに、データベース内にこの ID より大きい ID 番号があるかどうかを判断し、存在する場合は、1 つを読み取り、情報をクエリして、を繰り返します。以上の作業です。
具体的なコードは次のとおりです:
リーリーこのようにして、必要なニュース コンテンツが収集され、データベースに保存されました。次に必要なのは、データのいくつかのスタイルを整理することだけです。
PHP データ収集の一般的な技術的要点:
1. 正規表現データ抽出技術に精通している: コンテンツを抽出するための主要な手順
2. 文字エンコーディング変換分析技術に精通している: 互換性管理とデータ有効性管理に精通している
3.データベースのソート技術: データベース、ファイル、進捗状況などの収集されたコンテンツの保存と管理
4. データマイニングと Web サイトのクローリング技術: Web サイトの構造を分析し、クローリング技術を簡素化し、効率を向上させます
5.技術:既存の対策に対応 収集対象に合わせた収集防止技術
6. 複数サーバー同時収集管理技術:効率化を図るための作業手法
7. データの漏洩検知と検証データの正確性と有効性
8. 自己識別保護技術: 自分の情報の保護
phpには$nr = implode('#',$arr)メソッドがありますが、それは問題ありません
ただし、上記の構成は「コンテンツ1#コンテンツ2」であり、必要に応じて最後の#を省略します
$nr = implode( '#',$arr).'#'
愚かな方法は
foreach( $arr as $vl){
$nr.=$vl."#";
}
References :$