Python は非常に、非常に、非常にシンプルなクローラー applet_html/css_WEB-ITnose
今回初めてクローラーに触れるのですが、このプログラムは初心者がクローラーとは何か、そしてクローラーの基本的なロジックを理解するのに役立ちます。 (NetEase Cloud Classroom の Heibanke 教師のプログラムを参照して書かれています。Hebanke 教師のコースは非常に明確なので、興味のあるプレイヤーはチェックしてみてください)
クロールされた URL は http://www.heibanke.com /lesson です/crawler_ex00/完了する必要があるタスクは、URL の後に表示された番号を入力して次の URL に転送し、表示された番号を再度読み取り、次の URL に転送することで、
をループします。クローラーの要件
クロール時には urllib と BeautifulSoup の 2 つのライブラリを使用する必要があります。URLlib は Python に付属するライブラリです。
pip install beautifulsoup4
インストールは成功しました インポート後
import urllibfrom bs4 import BeautifulSoup
urllib は、クロールする Web サイトを開くために URL を操作するための一連の関数を提供します。
urllib.urlopen(url)
Beautifulsoup は主に HTML を解析するために使用され、 HTML を数値に変換します。各ノードは Python オブジェクトです。すべてのオブジェクトは 4 つのタイプに要約できます: 1.Tag2.NavigableString3.BeautifulSoup4.Comment HTML が
<html> <[head])> <title> The Dormouse's story </title>
print soup.title>>><title>The Dormouse's story</title>
print soup.title.string>>>The Dormouse's story
の場合: プログラム ロジック: ページ上の数字を読み上げ、 URL の後に、数字のない最後のページに入るまで、新しいページの番号を読み続けます。 ブレーク プログラムは次のとおりです:
import urllibfrom bs4 import BeautifulSoupimport re#这个库导入是为了使用正则表达式读取读取找到的内容中的数字url='http://www.heibanke.com/lesson/crawler_ex00/'number=['']#用于储存读到的数字while True: content = urllib.urlopen(url+number[0])#number为字符串,number[0]为数字 bs_obj = BeautifulSoup(content,"html.parser")#html.parser表示解析网站,不返回任何值 number = bs_obj.h3.string#网页显示出的“你需要在网址后输入数字44513”在html的h3 tag中,number在这里读出了h3里面的内容 number= re.findall(r'\d+',number)#读出了number里面的数字 if not number:#必须判断页面中还有是否还有number,没有说明已经到了最后一个页面,这时应该跳出循环,打印 bs_obj.h3.string break else: print number[0]print bs_obj.h3.string

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











HTMLは、簡単に学習しやすく、結果をすばやく見ることができるため、初心者に適しています。 1)HTMLの学習曲線はスムーズで簡単に開始できます。 2)基本タグをマスターして、Webページの作成を開始します。 3)柔軟性が高く、CSSおよびJavaScriptと組み合わせて使用できます。 4)豊富な学習リソースと最新のツールは、学習プロセスをサポートしています。

HTMLはWeb構造を定義し、CSSはスタイルとレイアウトを担当し、JavaScriptは動的な相互作用を提供します。 3人はWeb開発で職務を遂行し、共同でカラフルなWebサイトを構築します。

Anexampleapalofastartingtaginhtmlis、それはaperginsaparagraph.startingtagsaresentionentientiontheyinitiateelements、definetheirtypes、およびarecrucialforurturingwebpagesandcontingthomedomを構築します。

webdevelopmentReliesOnhtml、css、andjavascript:1)htmlStructuresContent、2)cssStylesit、および3)Javascriptaddsinteractivity、形成、

Y軸位置Webアノテーション機能の適応アルゴリズムこの記事では、単語文書と同様の注釈関数、特に注釈間の間隔を扱う方法を実装する方法を探ります...

GiteEpages静的Webサイトの展開が失敗しました:404エラーのトラブルシューティングと解像度Giteeを使用する

画像をクリックした後、散乱と周囲の画像を拡大する効果を実現するには、多くのWebデザインがインタラクティブな効果を実現する必要があります。特定の画像をクリックして周囲を作成してください...

HTML、CSS、およびJavaScriptは、Web開発の3つの柱です。 1。HTMLは、Webページ構造を定義し、などなどのタグを使用します。2。CSSは、色、フォントサイズなどのセレクターと属性を使用してWebページスタイルを制御します。
