在Java中使用正規表示式解析HTML
識別href和src標籤等HTML元素可以透過正規表示式來實現,儘管它是通常不推薦。如果您仍在考慮這種方法,讓我們深入研究如何在Java 中實現它:
使用正規表示式解析
要尋找href 標籤,您可以使用正規表示式如:
Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");
找出src 標籤:
Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");
擷取URL
一旦有了模式,就可以匹配它們針對您的HTML 字串並擷取URL 群組:
Matcher m = p.matcher(htmlString); while (m.find()) { String url = m.group(1); }
建議
但是,強烈建議使用HTML 解析器而不是正規表示式。 HTML 結構非常複雜,正規表示式常常會忽略邊緣情況。像 JSoup 這樣的專用 HTML 解析器更擅長解釋 HTML 並可靠地提取所需的元素。
以上是Java中正規表示式能否有效解析HTML?的詳細內容。更多資訊請關注PHP中文網其他相關文章!