Python は指定された URL の ICP ファイリング情報をクロールします。
#coding=gbk import os import sys import re import time import urllib2 def perror_and_exit(message, status = -1): sys.stderr.write(message + '\n') sys.exit(status) def get_text_from_html_tag(html): pattern_text = re.compile(r">.*? return pattern_text.findall(html)[0][1:-2].strip() def parse_alexa(url): url_alexa = "http://icp.alexa.cn/index.php?q=%s" % url print url_alexa #handle exception times = 0 while times < 5000: #等待有一定次数限制 try: alexa = urllib2.urlopen(url_alexa).read() pattern_table = re.compile(r".*?", re.DOTALL | re.MULTILINE) match_table = pattern_table.search(alexa) if not match_table: raise BaseException("No table in HTML") break except: print "try %s times:sleep %s seconds" % (times, 2**times) times += 1 time.sleep(2**times) continue table = match_table.group() pattern_tr = re.compile(r".*?", re.DOTALL | re.MULTILINE) match_tr = pattern_tr.findall(table) if len(match_tr) != 2: perror_and_exit("table format is incorrect") icp_tr = match_tr[1] pattern_td = re.compile(r".*?", re.DOTALL | re.MULTILINE) match_td = pattern_td.findall(icp_tr) #print match_td company_name = get_text_from_html_tag(match_td[1]) company_properties = get_text_from_html_tag(match_td[2]) company_icp = get_text_from_html_tag(match_td[3]) company_icp = company_icp[company_icp.find(">") + 1:] company_website_name = get_text_from_html_tag(match_td[4]) company_website_home_page = get_text_from_html_tag(match_td[5]) company_website_home_page = company_website_home_page[company_website_home_page.rfind(">") + 1:] company_detail_url = get_text_from_html_tag(match_td[7]) pattern_href = re.compile(r"href=\".*?\"", re.DOTALL | re.MULTILINE) match_href = pattern_href.findall(company_detail_url) if len(match_href) == 0: company_detail_url = "" else: company_detail_url = match_href[0][len("href=\""):-1] return [url, company_name, company_properties, company_icp, company_website_name, company_website_home_page, company_detail_url] pass if __name__ == "__main__": fw = file("out.txt", "w") for url in sys.stdin: fw.write("\t".join(parse_alexa(url)) + "\n") #coding=gbk import os import sys import re import time import urllib2 def perror_and_exit(message, status = -1): sys.stderr.write(message + '\n') sys.exit(status) def get_text_from_html_tag(html): pattern_text = re.compile(r">.*? return pattern_text.findall(html)[0][1:-2].strip() def parse_alexa(url): url_alexa = "http://icp.alexa.cn/index.php?q=%s" % url print url_alexa #handle exception times = 0 while times < 5000: #等待有一定次数限制 try: alexa = urllib2.urlopen(url_alexa).read() pattern_table = re.compile(r".*?", re.DOTALL | re.MULTILINE) match_table = pattern_table.search(alexa) if not match_table: raise BaseException("No table in HTML") break except: print "try %s times:sleep %s seconds" % (times, 2**times) times += 1 time.sleep(2**times) continue table = match_table.group() pattern_tr = re.compile(r".*?", re.DOTALL | re.MULTILINE) match_tr = pattern_tr.findall(table) if len(match_tr) != 2: perror_and_exit("table format is incorrect") icp_tr = match_tr[1] pattern_td = re.compile(r".*?", re.DOTALL | re.MULTILINE) match_td = pattern_td.findall(icp_tr) #print match_td company_name = get_text_from_html_tag(match_td[1]) company_properties = get_text_from_html_tag(match_td[2]) company_icp = get_text_from_html_tag(match_td[3]) company_icp = company_icp[company_icp.find(">") + 1:] company_website_name = get_text_from_html_tag(match_td[4]) company_website_home_page = get_text_from_html_tag(match_td[5]) company_website_home_page = company_website_home_page[company_website_home_page.rfind(">") + 1:] company_detail_url = get_text_from_html_tag(match_td[7]) pattern_href = re.compile(r"href=\".*?\"", re.DOTALL | re.MULTILINE) match_href = pattern_href.findall(company_detail_url) if len(match_href) == 0: company_detail_url = "" else: company_detail_url = match_href[0][len("href=\""):-1] return [url, company_name, company_properties, company_icp, company_website_name, company_website_home_page, company_detail_url] pass if __name__ == "__main__": fw = file("out.txt", "w") for url in sys.stdin: fw.write("\t".join(parse_alexa(url)) + "\n")[python] view plaincopyprint? time.sleep(2) pass time.sleep(2) pass
IP がブロックされないように、すべてのクロールは 2 秒間スリープします。実際、IP がスリープ状態であっても、一定期間が経過するとブロックされます。
構造化されたクロールであるため、このプログラムはブロックされません。ウェブサイトの形式が変わったときにも使用できます

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Deepseekapiアクセスと電話の詳細な説明:クイックスタートガイドこの記事では、Deepseekapiにアクセスして呼び出す方法を詳しく説明し、強力なAIモデルを簡単に使用するのに役立ちます。ステップ1:APIキーを取得して、DeepSeekの公式Webサイトにアクセスし、右上隅の「オープンプラットフォーム」をクリックします。一定数の無料トークン(API使用量を測定するために使用)が得られます。左側のメニューで、[apikeys]をクリックし、[Apikeyの作成]をクリックします。 Apikey(たとえば、「テスト」)に名前を付け、生成されたキーをすぐにコピーします。このキーは一度しか表示されないため、必ず適切に保存してください

この記事では、3つの主要な交換、Binance、OKX、およびgate.ioの定量的取引機能を調査し、定量的トレーダーが適切なプラットフォームを選択できるようにすることを目指しています。この記事では、最初に定量的取引の概念、利点、課題を紹介し、APIサポート、データソース、バックテストツール、リスク制御機能など、優れた定量的取引ソフトウェアが持つべき機能を説明します。その後、3つの交換の定量的取引機能を比較し、詳細に分析し、それぞれその利点と短所を指摘し、最終的にさまざまなレベルの経験の定量的トレーダーにプラットフォーム選択の提案を提供し、リスク評価と戦略的バックテストの重要性を強調しました。 あなたが初心者であろうと経験豊富な定量的トレーダーであろうと、この記事はあなたに貴重なリファレンスを提供します

Deepseek Deep Learning Library Python Call Guide Deepseekは、さまざまなニューラルネットワークモデルの構築とトレーニングに使用できる強力なディープラーニングライブラリです。この記事では、Pythonを使用してDeepSeekを呼び出すためにDeep Learning Developmentを詳細に紹介します。 Python 1を使用してDeepseekを呼び出す手順。Python環境とPIPツールがインストールされていることを確認してください。次のコマンドを使用してDeepSeekをインストールします。PipinStallDeepSeek2をインポートします。

ANBI Alphaは、Binanceプラットフォームのプロのトレーダーや投資家向けのツールおよびサービス集約プラットフォームです。そのコア関数には、次のものが含まれます。1。戦略スクエアは、さまざまな取引戦略を結びつける。 2。カスタム取引戦略を許可する戦略ビルダー。 3.市場分析ツールを提供する高度なデータ分析。 4。専門的な投資家のニーズを満たすための機関レベルのサービス。

2024年の時点で、トレーディング端末を介してオプションヘッジングの指示を直接送信するサポートをサポートする主流の暗号通貨交換:1。デリビットは、デルタヘッジやガンマスカルピングなどの高度な戦略をサポートし、Webバージョン/APIワンクリックヘッジを提供します。 2。OKXは、ボラティリティヘッジと戦略の組み合わせツール、およびWeb/アプリに組み込みのヘッジパネルをサポートしています。 3. Binanceは保護ヘッジをサポートし、手動またはAPIの組み合わせ位置を必要とします。 4。CME、標準オプションを提供し、ブローカーを通じてアクセスを必要とする。 5。Ledgerx、専門レベルのヘッジツールを提供し、機関の認証を必要とします。

多くのウェブサイト開発者は、ランプアーキテクチャの下でnode.jsまたはPythonサービスを統合する問題に直面しています:既存のランプ(Linux Apache MySQL PHP)アーキテクチャWebサイトのニーズ...

Pythonは、ラテックスマルチレイヤーブラケット:多次元辞書の多くのラテックスを構築します...

文字セットとレイヤー番号に基づいて、順列の組み合わせを生成します。この記事では、重複を避けるために、特定の文字セットとレイヤー番号に基づいて、対応する順列の組み合わせ結果を生成する方法を紹介します...
