Python を使用して散文 Web サイトから記事をクロールする

Python 2.7を設定する
リーリーインストール pip を使用して sudo pip install bs4 をインストールします
sudo pip インストールリクエスト
bs4の使い方を簡単に説明するとWebページを巡回するのでfindとfind_allを紹介します
find と find_all の違いは、返されるものが異なることです。 Find は最初に一致したタグとそのタグ内のコンテンツを返します。
find_all はリストを返しますたとえば、find と find_all の違いをテストする test.html を書いてみましょう。内容は:
リーリー
リーリー
test.py のコードは次のとおりです:リーリー
リーリー
実行後、指定したタグを取得すると、両者に大きな違いはなくなり、タグのグループを取得すると、両者の差が表示されます。

私は。 get メソッドを使用して prose.com 上のいくつかのカテゴリの第 2 レベルの Web ページを取得し、グループ テストに合格してすべての Web ページをクロールします
を通じて Web ページに直接アクセスします。
リーリー
コードのこの部分では、200 ではない res.status_code を処理しませんでした。その結果、エラーが表示されず、クロールされたコンテンツが失われるという問題が発生します。そこで Sanwen.net の Web ページを分析したところ、www.sanwen.net/rizhi/&p=1 であることがわかりました
p の最大値は 10 です。最後にディスクをクロールしたときは、そうでした。 100ページは後で分析します。次に、get メソッドを使用して各ページのコンテンツを取得します。各ページの内容を取得後、作成者とタイトルを解析するコードは以下の通りです
リーリー
タイトルを取得するときに不正行為がありました。散文を書くときにタイトルにスラッシュを追加するのはなぜですか?正規表現を変更してください。
最後のステップは、各ページの分析を通じて記事のアドレスを取得し、最初は Web ページのアドレスを変更してコンテンツを 1 つずつ取得することです。トラブル。
リーリー
最後のステップはファイルを書き込んで保存することです
リーリー
Prose.com から散文を取得するには 3 つの関数が使用されますが、問題は、一部の散文が約 400 件しか取得できない理由がわからないことです。 Prose.com ですが、ページごとに同じことがわかりました。誰かがこの問題を解決してくれることを願っています。もちろん、それは私の寮のネットワークが壊れていることと関係があると思います
。リーリー
レンダリングのことをほとんど忘れていました

以上がPython を使用して散文 Web サイトから記事をクロールするの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Linux Systemsに付属するPythonインタープリターを削除する問題に関して、多くのLinuxディストリビューションは、インストール時にPythonインタープリターをプリインストールし、パッケージマネージャーを使用しません...

Pythonプログラミングでカスタムデコレーターを使用する場合、Pylance Type検出問題解決策デコレーターは、行を追加するために使用できる強力なツールです...

Python 3.6のピクルスファイルのロードレポートエラー:modulenotFounderror:nomodulenamed ...

「DebianStrings」は標準的な用語ではなく、その特定の意味はまだ不明です。この記事は、ブラウザの互換性について直接コメントすることはできません。ただし、「DebianStrings」がDebianシステムで実行されているWebアプリケーションを指す場合、そのブラウザの互換性はアプリケーション自体の技術アーキテクチャに依存します。ほとんどの最新のWebアプリケーションは、クロスブラウザーの互換性に取り組んでいます。これは、次のWeb標準と、適切に互換性のあるフロントエンドテクノロジー(HTML、CSS、JavaScriptなど)およびバックエンドテクノロジー(PHP、Python、Node.jsなど)を使用することに依存しています。アプリケーションが複数のブラウザと互換性があることを確認するには、開発者がクロスブラウザーテストを実施し、応答性を使用する必要があることがよくあります

XMLコンテンツを変更するには、ターゲットノードの正確な検出が必要であるため、プログラミングが必要です。プログラミング言語には、XMLを処理するための対応するライブラリがあり、APIを提供して、データベースの運用などの安全で効率的で制御可能な操作を実行します。

Mobile XMLからPDFへの速度は、次の要因に依存します。XML構造の複雑さです。モバイルハードウェア構成変換方法(ライブラリ、アルゴリズム)コードの品質最適化方法(効率的なライブラリ、アルゴリズムの最適化、キャッシュデータ、およびマルチスレッドの利用)。全体として、絶対的な答えはなく、特定の状況に従って最適化する必要があります。

小さなXMLファイルの場合、注釈コンテンツをテキストエディターに直接置き換えることができます。大きなファイルの場合、XMLパーサーを使用してそれを変更して、効率と精度を確保することをお勧めします。 XMLコメントを削除するときは注意してください。コメントを維持すると、通常、コードの理解とメンテナンスが役立ちます。高度なヒントは、XMLパーサーを使用してコメントを変更するためのPythonサンプルコードを提供しますが、特定の実装を使用するXMLライブラリに従って調整する必要があります。 XMLファイルを変更する際のエンコード問題に注意してください。 UTF-8エンコードを使用して、エンコード形式を指定することをお勧めします。

XMLをPDFに直接変換するアプリケーションは、2つの根本的に異なる形式であるため、見つかりません。 XMLはデータの保存に使用され、PDFはドキュメントを表示するために使用されます。変換を完了するには、PythonやReportLabなどのプログラミング言語とライブラリを使用して、XMLデータを解析してPDFドキュメントを生成できます。
