ホームページ ウェブフロントエンド htmlチュートリアル Python スクリプトは Web サイトのリンクが存在するかどうかを検出します_html/css_WEB-ITnose

Python スクリプトは Web サイトのリンクが存在するかどうかを検出します_html/css_WEB-ITnose

Jun 21, 2016 am 08:52 AM

Python 言語は操作が簡単だと昔から聞いていましたが、確かに、ほんの数文で基本的な機能を実現できます。

指定された URL がターゲット Web サイトに存在するかどうかを検出するプロセスは、実際には非常に簡単です。

1. 指定された Web サイト ページの HTML コードを取得します。

2. HTML コード内を検索します。 指定された URL

3. 存在する場合は OK、存在しない場合はエラー

プログラム全体が 2 つの lib ライブラリ、urllib2 を参照します。 sgmllib

urllib2 ライブラリは主に、(基本的に HTTP 経由で) URL にアクセスするためのいくつかの関数とクラスを定義します。

sgmllib ライブラリは主に HTML コードの解析を担当します。

 1 import urllib2 2 from sgmllib import SGMLParser 3  4 class URLLister(SGMLParser): 5     def reset(self): 6         SGMLParser.reset(self) 7         self.urls = [] 8  9     def start_a(self,attrs):10         href=[v for k,v in attrs if k=='href']11         if href:12             if (href[0].count('http://网站URL')==1):13                 self.urls.extend(href)14 15 16 links = ['http://www.google.com/',17          'http://www.baidu.com',18          'http://www.sohu.net',19          'http://www.163.com',20          'http://www.cnblogs.com',21          'http://www.qq.com',22          'http://www.yahoo.com/',23          'http://www.bing.com/',24          'http://www.360.com',]25 26 for eachlink in links:27     f = urllib2.urlopen(eachlink)28     if f.code ==200:29         parser = URLLister()30         parser.feed(f.read())31         f.close()32         if (len(parser.urls)>=1):33             print 'The link from '+eachlink+' is OK!'34         else:35             print 'The link from '+eachlink+' is ERROR!'
ログイン後にコピー
いくつかの主な関数:

1. urllib2. urlopen ( url[, data][, timeout] )//URL を開きます

2 、SGMLParser。 feed (data) // 解析する必要がある HTML データを取得します。

3. SGMLParser. start_tag (attributes) // このプログラムでは、start_a を呼び出します。 HTML コード内の タグを解析する必要があることを示します。 タグ内の href 属性の値を検索すると、指定した URL が存在する限り、Web ページ上のすべてのリンクに関する情報を取得できます。

これは実際には小さなスクリプトですが、私も興奮しました。第一に、私は Python の世界に入り、実際の仕事で問題を解決するためにそれを使用しました。第二に、そのシンプルな構文とインデント形式に本当に目を輝かせました。今後は、Python をさらに活用して実務でさまざまな問題を解決し、学んだことを応用していきたいと思っています

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

< Progress>の目的は何ですか 要素? < Progress>の目的は何ですか 要素? Mar 21, 2025 pm 12:34 PM

この記事では、HTML< Progress>について説明します。要素、その目的、スタイリング、および< meter>との違い要素。主な焦点は、< Progress>を使用することです。タスクの完了と< Meter> statiの場合

< datalist>の目的は何ですか 要素? < datalist>の目的は何ですか 要素? Mar 21, 2025 pm 12:33 PM

この記事では、HTML< Datalist>について説明します。オートコンプリートの提案を提供し、ユーザーエクスペリエンスの改善、エラーの削減によりフォームを強化する要素。

< meter>の目的は何ですか 要素? < meter>の目的は何ですか 要素? Mar 21, 2025 pm 12:35 PM

この記事では、html< meter>について説明します。要素は、範囲内でスカラーまたは分数値を表示するために使用され、Web開発におけるその一般的なアプリケーション。それは差別化< Meter> < Progress>およびex

ビューポートメタタグとは何ですか?レスポンシブデザインにとってなぜそれが重要なのですか? ビューポートメタタグとは何ですか?レスポンシブデザインにとってなぜそれが重要なのですか? Mar 20, 2025 pm 05:56 PM

この記事では、モバイルデバイスのレスポンシブWebデザインに不可欠なViewportメタタグについて説明します。適切な使用により、最適なコンテンツのスケーリングとユーザーの相互作用が保証され、誤用が設計とアクセシビリティの問題につながる可能性があることを説明しています。

HTML5フォーム検証属性を使用してユーザー入力を検証するにはどうすればよいですか? HTML5フォーム検証属性を使用してユーザー入力を検証するにはどうすればよいですか? Mar 17, 2025 pm 12:27 PM

この記事では、ブラウザのユーザー入力を直接検証するために、必要、パターン、MIN、MAX、および長さの制限などのHTML5フォーム検証属性を使用して説明します。

HTML5< time>を使用するにはどうすればよいですか 日付と時刻を意味的に表す要素? HTML5< time>を使用するにはどうすればよいですか 日付と時刻を意味的に表す要素? Mar 12, 2025 pm 04:05 PM

この記事では、html5< time>について説明します。セマンティックデート/時刻表現の要素。 人間の読み取り可能なテキストとともに、マシンの読みやすさ(ISO 8601形式)のDateTime属性の重要性を強調し、Accessibilitを増やします

HTML5のクロスブラウザー互換性のベストプラクティスは何ですか? HTML5のクロスブラウザー互換性のベストプラクティスは何ですか? Mar 17, 2025 pm 12:20 PM

記事では、HTML5クロスブラウザーの互換性を確保するためのベストプラクティスについて説明し、機能検出、プログレッシブエンハンスメント、およびテスト方法に焦点を当てています。

< iframe>の目的は何ですか タグ?使用する際のセキュリティ上の考慮事項は何ですか? < iframe>の目的は何ですか タグ?使用する際のセキュリティ上の考慮事項は何ですか? Mar 20, 2025 pm 06:05 PM

この記事では、< iframe>外部コンテンツをWebページ、その一般的な用途、セキュリティリスク、およびオブジェクトタグやAPIなどの代替案に埋め込む際のタグの目的。

See all articles