Python は非常に、非常に、非常にシンプルなクローラー applet_html/css

ホームページ

ウェブフロントエンド

htmlチュートリアル

Python は非常に、非常に、非常にシンプルなクローラー applet_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 21, 2016 am 08:56 AM

今回初めてクローラーに触れるのですが、このプログラムは初心者がクローラーとは何か、そしてクローラーの基本的なロジックを理解するのに役立ちます。 (NetEase Cloud Classroom の Heibanke 教師のプログラムを参照して書かれています。Hebanke 教師のコースは非常に明確なので、興味のあるプレイヤーはチェックしてみてください)

クロールされた URL は http://www.heibanke.com /lesson です/crawler_ex00/完了する必要があるタスクは、URL の後に表示された番号を入力して次の URL に転送し、表示された番号を再度読み取り、次の URL に転送することで、

をループします。クローラーの要件

クロール時には urllib と BeautifulSoup の 2 つのライブラリを使用する必要があります。URLlib は Python に付属するライブラリです。

pip install beautifulsoup4

ログイン後にコピー

インストールは成功しましたインポート後

import urllibfrom bs4 import BeautifulSoup

ログイン後にコピー

urllib は、クロールする Web サイトを開くために URL を操作するための一連の関数を提供します。

urllib.urlopen(url)

ログイン後にコピー

Beautifulsoup は主に HTML を解析するために使用され、 HTML を数値に変換します。各ノードは Python オブジェクトです。すべてのオブジェクトは 4 つのタイプに要約できます: 1.Tag2.NavigableString3.BeautifulSoup4.Comment HTML が

<html> <[head])>  <title>   The Dormouse's story  </title>

ログイン後にコピー

print soup.title>>><title>The Dormouse's story</title>

ログイン後にコピー

print soup.title.string>>>The Dormouse's story

ログイン後にコピー

の場合: プログラムロジック: ページ上の数字を読み上げ、 URL の後に、数字のない最後のページに入るまで、新しいページの番号を読み続けます。ブレークプログラムは次のとおりです:

import urllibfrom bs4 import BeautifulSoupimport re#这个库导入是为了使用正则表达式读取读取找到的内容中的数字url='http://www.heibanke.com/lesson/crawler_ex00/'number=['']#用于储存读到的数字while True:    content = urllib.urlopen(url+number[0])#number为字符串，number[0]为数字    bs_obj = BeautifulSoup(content,"html.parser")#html.parser表示解析网站，不返回任何值    number = bs_obj.h3.string#网页显示出的“你需要在网址后输入数字44513”在html的h3 tag中，number在这里读出了h3里面的内容    number= re.findall(r'\d+',number)#读出了number里面的数字    if not number:#必须判断页面中还有是否还有number，没有说明已经到了最后一个页面，这时应该跳出循环，打印 bs_obj.h3.string        break    else:        print number[0]print bs_obj.h3.string

ログイン後にコピー

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7685

Java チュートリアル

1639

CakePHP チュートリアル

1393

Laravel チュートリアル

1287

PHP チュートリアル

1229

Related knowledge

HTMLは初心者のために簡単に学ぶことができますか？ Apr 07, 2025 am 12:11 AM

HTMLは、簡単に学習しやすく、結果をすばやく見ることができるため、初心者に適しています。 1）HTMLの学習曲線はスムーズで簡単に開始できます。 2）基本タグをマスターして、Webページの作成を開始します。 3）柔軟性が高く、CSSおよびJavaScriptと組み合わせて使用できます。 4）豊富な学習リソースと最新のツールは、学習プロセスをサポートしています。

HTML、CSS、およびJavaScriptの役割：コアの責任 Apr 08, 2025 pm 07:05 PM

HTMLはWeb構造を定義し、CSSはスタイルとレイアウトを担当し、JavaScriptは動的な相互作用を提供します。 3人はWeb開発で職務を遂行し、共同でカラフルなWebサイトを構築します。

HTMLでの開始タグの例は何ですか？ Apr 06, 2025 am 12:04 AM

Anexampleapalofastartingtaginhtmlis、それはaperginsaparagraph.startingtagsaresentionentientiontheyinitiateelements、definetheirtypes、およびarecrucialforurturingwebpagesandcontingthomedomを構築します。