Python の Python で一般的に使用されるライブラリ のうち、プログラマがやめてしまうものはどれですか?今日はそのような よく使われる Python ライブラリを整理します . 関連するライブラリの内容をコメント エリアまたはプライベート メッセージで追加または変更することは歓迎です。
最初に beautysoup ライブラリを紹介します。なぜなら、私が crawler に初めて触れたとき、誰もがこのライブラリを強く推奨しているのを見たからです。後で使ってみたら、本当に良かったです。しかし、プログラマー、どうして図書館で死ぬことができますか(笑)。
いくつかのライブラリのインストール手順については説明しませんので、anaconda を参照してください。 -__-.
次の例はすべてこれを使用してテストされています。
html = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="myclass" name="dromouse"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="myclass" id="box"><!-- Elsie --></a>, <a href="http://example.com/lacie" class="myclass" id="box1">Lacie</a> and <a href="http://example.com/tillie" class="myclass" id="box2">Tillie</a>; and they lived at the bottom of a well.</p> <p class="story">...</p> """
BeautifulSoup
##Beautiful Soup は、Python 標準ライブラリの HTML パーサーをサポートしており、いくつかのサードパーティ パーサーもサポートしています。たとえば、lxml HTML、lxml XML、html5lib などです。ただし、これらのライブラリをインストールする必要があります。インストールしないと、Python の内部標準ライブラリが使用されます。 美しいスープ オブジェクトを作成するには 2 つの方法があります。 1. Soup=BeautifulSoup(html) #変数コンテンツを使用して作成2.Soup=BeautifulSoup('mysite.html') #ローカル ファイルを使用して作成 BeautifulSoup は変換しますHTML を複雑なツリー構造に変換します。各ノードは Python オブジェクトです。フロントエンドの知識がある学生は、これが DOM オブジェクトに似ていることを理解するでしょう。 BeautifulSoupには大きく分けてTag、NavigableString、BeautifulSoup、Commentの4種類のオブジェクトがあります。私たちの日常的な操作のほとんどは各タグから情報を抽出することなので、一般的に使用される Tag オブジェクトについて簡単に説明します。タグ
タグはHTMLのタグです。 たとえば、HTML の head、title、a、p など。 実際の操作ではセレクターで必要なタグを見つけ、Tagオブジェクトを操作して必要な情報を取得します。 BeautifulSoup では、一般的に findAll() と find() を使用してドキュメント ツリーを検索し、必要なタグを取得します。同時に、BeautifulSoup は検索、select() メソッドの CSS 構文もサポートしており、戻り値の型はリストです。 ps:1.findAll() は find_all()2 と同等です。フロントエンドについてよく知っている場合は、 select() メソッドを使用してスムーズに比較します。find()
find() は findAll() の limit=1 と同等ですが、find() は結果を返し、findAll() が返すのはリストです。CSS セレクター
Beautifulsoup は、必要なタグを見つけるための CSS 構文セレクターをサポートしています。select(CSS选择器) 例: soup.select('.myclass #box') #后代选择器 soup.select('head>title') #子选择器 soup.select('div+p') #相邻兄弟选择器 soup.select('div~p’) #后续兄弟选择器
soup.select('.myclass a[id="box"]')
以上がPythonをもっと便利に ~よく使われるPythonの標準ライブラリ入門~の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。