Python での urllib2 と BeautifulSoup を使用したデータのクロールと保存に関する MongoDB

Python の Urllib2 と BeautifulSoup は、データをクロールして MongoDB に保存します

ホームページ

バックエンド開発

PHPチュートリアル

Python での urllib2 と BeautifulSoup を使用したデータのクロールと保存に関する MongoDB_PHP チュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 10:18 AM

beautifulsoup mongodb python u そして保存データ這う

Python の Urllib2 と BeautifulSoup は、データをクロールして MongoDB に保存します

Beautiful Soup は、HTML と XML を解析するために使用される Python ライブラリで、好みの方法でファイルを解析し、解析ツリーを検索して変更できます。不規則なマークアップを適切に処理し、解析ツリーを生成し、シンプルで共通のナビゲーション、検索、および解析ツリー操作を提供します。

図に示すように、urllib2 モジュールと BS4 モジュールを使用して、タイトル、コンテンツ、銘柄名、銘柄 ID、リリース時刻、閲覧者数の html ページデータをクロールします。

Python での urllib2 と BeautifulSoup を使用したデータのクロールと保存に関する MongoDB_PHP チュートリアル帮客之家

例:

コードは次のとおりです

##-coding:utf-8-##
輸入時間
bs4 インポート BeautifulSoup から
urllib2 をインポートします
ピモンゴをインポートします
輸入再
インポート日時

def update():
データ = {}
接続 = pymongo.Connection('192.168.1.2', 27017)
#コネクトモンゴデータベース
db = connection.test_hq
#test_hq ライブラリを作成または接続します
私にとっては、Soup.find_all("div", class_="item"):
datas['_id'] = str(i.h2.a['href']).split('/')[-1].split('.')[0]
#HTMLページ名をID番号として取得します
datas['title'] = i.h2.get_text()
#タイトルを取得
url2 = i.h2.a['href']
#タイトルコンテンツURLアドレスを取得
html2 = urllib2.urlopen(url2)
html_doc2 = html2.read()
スープ2 = BeautifulSoup(html_doc2)
datas['content'] =Soup2.find(attrs={"name":"description"})['content']
#記事の内容を取得する
在庫名 = []
在庫ID = []
re.findall(u"[u4e00-u9fa5]+",i.find(class_="stocks").get_text()) の名前の場合:
Stock_name.append(name)
#影響を受ける銘柄の名前を取得し、対応する銘柄 ID 番号を配列に保存します
データ['株名'] = 株名
re.findall("d+",i.find(class_="stocks").get_text()) の ID の場合:
Stock_id.append(id)
#インパクトストックIDを取得
データ ['stock_id'] = Stock_id
datas['update_time'] = datetime.datetime.strptime(re.search("w+.*w+", i.find(class_="fl date").span.get_text()).group(), '%Y -%m-%d %H:%M') - datetime.timedelta(時間=8)
#リリース時間を取得してmongo時間形式に変換します
datas['onlooker'] = int(re.search("d+",i.find(class_="icons ic-wg").get_text()).group())
#観戦者数を取得
db.test.save(datas)
#データベースに挿入

def get_data():

title = str(soup.h2.a['href']).split('/')[-1].split('.')[0]
#更新判定用のHTMLページ名を取得します
open('update.txt', 'r') を f:
として使用時間 = f.readline()
タイトル == 時間の場合:
「現在更新はありません」、タイトルを印刷します
その他:
open('update.txt', 'w') を f:
として使用 f.write(タイトル)
update()

True の間:
__name__ == '__main__'の場合:
URL = 'http://www.ipython.me/qingbao/'
html = urllib2.urlopen(url)
html_doc = html.read()
スープ = BeautifulSoup(html_doc)
get_data()
時間.睡眠(30)
#30秒ごとに更新

Python での urllib2 と BeautifulSoup を使用したデータのクロールと保存に関する MongoDB_PHP チュートリアル

。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7433

CakePHP チュートリアル

1359

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

独特の目標は関連していますか？ Apr 03, 2025 pm 10:30 PM

明確で明確なものは区別に関連していますが、それらは異なる方法で使用されます。明確な（形容詞）は、物事自体の独自性を説明し、物事の違いを強調するために使用されます。明確な（動詞）は、区別の動作または能力を表し、差別プロセスを説明するために使用されます。プログラミングでは、個別は、重複排除操作などのコレクション内の要素の独自性を表すためによく使用されます。明確なは、奇数や偶数の偶数を区別するなど、アルゴリズムまたは関数の設計に反映されます。最適化する場合、異なる操作は適切なアルゴリズムとデータ構造を選択する必要がありますが、異なる操作は、論理効率の区別を最適化し、明確で読み取り可能なコードの書き込みに注意を払う必要があります。

誰がより多くのPythonまたはJavaScriptを支払われますか？ Apr 04, 2025 am 12:09 AM

スキルや業界のニーズに応じて、PythonおよびJavaScript開発者には絶対的な給与はありません。 1. Pythonは、データサイエンスと機械学習でさらに支払われる場合があります。 2。JavaScriptは、フロントエンドとフルスタックの開発に大きな需要があり、その給与もかなりです。 3。影響要因には、経験、地理的位置、会社の規模、特定のスキルが含まれます。

H5ページの生産には継続的なメンテナンスが必要ですか？ Apr 05, 2025 pm 11:27 PM

H5ページは、コードの脆弱性、ブラウザー互換性、パフォーマンスの最適化、セキュリティの更新、ユーザーエクスペリエンスの改善などの要因のため、継続的に維持する必要があります。効果的なメンテナンス方法には、完全なテストシステムの確立、バージョン制御ツールの使用、定期的にページのパフォーマンスの監視、ユーザーフィードバックの収集、メンテナンス計画の策定が含まれます。

ラブコードのコピーをコピーして貼り付けて無料でラブコードを貼り付けます Apr 04, 2025 am 06:48 AM

コードのコピーと貼り付けは不可能ではありませんが、注意して扱う必要があります。コード内の環境、ライブラリ、バージョンなどの依存関係は、現在のプロジェクトと一致しないため、エラーや予測不可能な結果が得られます。ファイルパス、従属ライブラリ、Pythonバージョンなど、コンテキストが一貫していることを確認してください。さらに、特定のライブラリのコードをコピーして貼り付けるときは、ライブラリとその依存関係をインストールする必要がある場合があります。一般的なエラーには、パスエラー、バージョンの競合、一貫性のないコードスタイルが含まれます。パフォーマンスの最適化は、コードの元の目的と制約に従って再設計またはリファクタリングする必要があります。コピーされたコードを理解してデバッグすることが重要であり、盲目的にコピーして貼り付けないでください。

58.com作業ページでリアルタイムアプリケーションと視聴者のデータを取得する方法は？ Apr 05, 2025 am 08:06 AM

クロール中に58.com作業ページの動的データを取得するにはどうすればよいですか？ Crawlerツールを使用して58.comの作業ページをrawったら、これに遭遇する可能性があります...

rust錆自明】はじめに Apr 04, 2025 am 08:03 AM

1.0.1序文このプロジェクト（コードとコメントを含む）は、私の独学の錆の間に記録されました。不正確または不明確な声明があるかもしれませんが、謝罪してください。あなたがそれから利益を得るなら、それはさらに良いです。 1.0.2なぜRustrustは信頼性が高く効率的ですか？ Rustは、CとCを同様のパフォーマンスであり、セキュリティが高くなり、CやCのようなエラーを確認するために頻繁な再コンパイルを必要としません。主な利点には、メモリセキュリティ（nullポインターの防止、ぶら下がりポインター、およびデータ競合の防止）が含まれます。スレッドセーフ（実行前にマルチスレッドコードが安全であることを確認してください）。未定義の動作を避けてください（例：境界のない配列、未知の変数、または解放されたメモリへのアクセス）。 Rustは、ジェネリックなどの最新の言語機能を提供します

PSが荷重を見せ続ける理由は何ですか？ Apr 06, 2025 pm 06:39 PM

PSの「読み込み」の問題は、リソースアクセスまたは処理の問題によって引き起こされます。ハードディスクの読み取り速度は遅いか悪いです。CrystaldiskInfoを使用して、ハードディスクの健康を確認し、問題のあるハードディスクを置き換えます。不十分なメモリ：高解像度の画像と複雑な層処理に対するPSのニーズを満たすためのメモリをアップグレードします。グラフィックカードドライバーは時代遅れまたは破損しています：ドライバーを更新して、PSとグラフィックスカードの間の通信を最適化します。ファイルパスが長すぎるか、ファイル名に特殊文字があります。短いパスを使用して特殊文字を避けます。 PS独自の問題：PSインストーラーを再インストールまたは修理します。