jsoup: HTML_html/css_WEB-ITnose の解析の使用法の概要-htmlチュートリアル-php.cn

1. 解析方法

(1) 文字列からの解析

String html = " 最初の解析 <p&gt ; HTML を解析してドキュメントに変換します。

";

Document doc = Jsoup.parse(html);

?

(2) from URL取得と解析

Document doc = Jsoup.connect("http://example.com/").get();

String title = doc.title();

Document doc = Jsoup.connect(" http://example.com") .data("query", "Java").userAgent("Mozilla").cookie("auth", "token").timeout(3000).post();

... parse(input, "UTF-8", "http://example.com/");

2. DOM 内の要素の走査 (1) 要素の検索

getElementById(文字列 ID) getElementByTag(文字列タグ)

getElementByClass(文字列クラス名)

getElementByAttribute(文字列キー)

siblingElements()、firstElementSibling()、lastElementSibling()、nextElementSibling()、previousElementSibling()

parent( ) ,children(),child(intindex) (2) 要素データの取得

attr(String key) ? キー属性の取得

attributes() 属性の取得

id(), className(), classNames ? ()

text() ? テキストコンテンツを取得します

html() ? この要素を含む HTML コンテンツを取得します

data() ? ;srcipt> または tag

tag tag (), tagName()

3. セレクター構文 (jsoup と他のパーサーの違いは、jquery のようなセレクター構文を使用して検索およびフィルタリングできることです必要な要素) (1) 基本セレクター

tagname: タグ タグ要素を検索します

ns|tag: fb|name: などの名前空間内のタグ タグ要素を検索します。 #id: 指定された ID を持つ要素を検索します

. class: 指定されたクラスを持つ要素を検索します

[attribute]: attribute 属性を持つ要素を検索します

[^attri]: attri で始まる属性を持つ要素を検索します

[attr=value]: 指定された属性を持つ要素とその属性値を持つ要素を検索します。 [attr^=value]、[attr$=value]、[attr*=value]: 指定された属性を持つ要素を検索します。指定された attr 属性であり、その属性値が [href*=/path/] などの値で始まる、終わる、または値を含む

[attr~=regex]: 指定された attr 属性を持ち、その属性値がregex 正規表現 *: 全要素を検索 (2) セレクタの組み合わせ

el#id: タグ名とIDを同時に指定

el.class: タグ名とクラスを同時に指定time

el[attr]: タグ名とそれに含まれる属性名を同時に指定

上記3項目のいずれか a[href].highlight などの組み合わせ

ancestor child: を含むdiv.content p のように、

ancestor > の下にある要素を検索します。つまり、 ノードの直下にある タグ要素を検索します。つまり、

siblingA + siblingB の下の要素: div.head + div など、直接トラバースします。つまり、子要素

siblingA を含まない の要素を検索します。 ~ siblingX: h1 ~ p など、 の下に直接的または間接的に を持つ要素を走査します el、el、el: 複数のセレクターを組み合わせて、セレクターの 1 つを満たす要素を検索します

(3) 擬似セレクター(条件セレクター)

:lt(n): 要素 n より前の要素を検索

:gt(n): 要素 n より後の要素を検索 :eq(n): 要素 n を検索

:has(seletor): 要素 n を検索 指定されたセレクターと一致します

:not(seletor): 指定されたセレクターと一致しない要素を検索します

:contains(text): 指定されたテキストを含む要素を検索します。大文字と小文字を区別します

:containsOwn(text):直接検索 指定したテキストを含む要素を参照します

:matches(regex): 指定した正規表現に一致する要素を検索します :matchesOwn(regex): この要素のテキスト内で指定した正規表現に一致する要素を検索します

注: 上記の疑似セレクター のインデックスでは、最初の要素はインデックス 0 にあり、2 番目の要素はインデックス 1 にあります...

4. 要素の属性、テキスト、HTML を取得します

要素の属性値を取得します: Node.attr(String key)

結合された子要素を含む要素のテキストを取得します: Element.text()

HTML を取得します: Element.html() またはNode.outerHtml()

5. URL を操作します

Element.attr("href") ? URL を直接取得します

Element.attr("abs:href") または Element.absUrl("href") ) ? 完全な URL を取得します。 HTML がファイルまたは文字列から解析される場合、Jsoup.setBaseUri(StringbaseUri) を呼び出してベース URL を指定する必要があります。そうしないと、取得される完全な URL は空の文字列のみになります

6. テスト例

li[ class=info] a[class=Author] - 前後のスペースは包含関係を示し、これは li の a を意味します

div[class=mod mod-main mod-lmain]:contains (Teaching Reflection) - div "Teaching Reflection" が含まれており、同時に同じ名前を持つ複数の DIV が存在する状況に適しています

/*

PreviousSibling() は特定のラベルの前のコードを取得します

nextSibling() は特定のラベルの後のコードを取得しますラベル

例:

1 位: リリー

2 位: トム

3 位: ピーター ;

*/

要素 items = doc.select("form[id=form1]");

for(Element) p : prevs){

String prevStr = p.previousSibling().toString().trim());

/*

最も一般的に使用されるリンク

*/

String itemTag = " div[class=mydiv]";

String linkTag = "a"

要素 items = doc.select(itemTag);

要素 links = items.select(linkTag);

for(Element l : links){

String href = l.attr("abs: href");//完全な Href

String absHref = l.attr("href");//相対パス

String text = l.text();

String title = l.attr("title") ;

} 7.jsoup オンライン API

http://jsoup.org/apidocs/