JavaはHTMLを削除します

WBOY
リリース: 2023-05-09 09:31:07
オリジナル
2009 人が閲覧しました
<p>Java は、さまざまな種類のアプリケーションの開発に使用できる、広く使用されているプログラミング言語です。多くのアプリケーションではテキストを処理する必要があり、よくある問題の 1 つは HTML タグを削除する方法です。 HTML マークアップは、Web ページ内のテキストやその他のコンテンツをマークアップするために使用されるコード言語ですが、テキストを処理したり別の場所に適用する必要がある場合は、マークアップを削除する必要があります。この記事では、Java を使用して HTML タグを削除する方法について説明します。 </p> <p>1. 正規表現を使用して HTML タグを削除する</p> <p>Java では、正規表現を使用してテキストの一致と置換を行うことができます。したがって、正規表現を使用して HTML タグを削除できます。サンプル コードは次のとおりです。 </p><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:java;toolbar:false;'>import java.util.regex.Pattern; import java.util.regex.Matcher; public class HtmlTagRemover { public static void main(String[] args) { String html = "<p>这是一段包含HTML标记的文本</p>"; String noHtml = html.replaceAll("\<.*?\>", ""); System.out.println(noHtml); } }</pre><div class="contentsignin">ログイン後にコピー</div></div><p> このサンプル コードでは、<code>replaceAll()</code> メソッドを使用して、すべての HTML タグを空の文字列に置き換えます。正規表現 <code>\<.*?\></code> は、<code><</code> で始まり <code>></code> で終わるすべての文字列、つまり HTML マークと一致します。この式では、最短の文字列のみに一致する非貪欲モードが使用されます。したがって、すべての HTML タグが削除されることが保証されます。 </p><p>2. Jsoup ライブラリを使用して HTML タグを削除する</p><p>正規表現を使用するだけでなく、Jsoup ライブラリを使用して HTML タグを削除することもできます。 Jsoup は、HTML ドキュメントからデータを抽出し、DOM ドキュメントを作成し、HTML ドキュメントを操作するための便利な API を提供するオープン ソースの Java HTML パーサーです。以下は、Jsoup を使用して HTML タグを削除するサンプル コードです。 </p><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:java;toolbar:false;'>import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class HtmlTagRemover { public static void main(String[] args) { String html = "<p>这是一段包含HTML标记的文本</p>"; Document doc = Jsoup.parse(html); Elements elements = doc.select("*"); for (Element element : elements) { element.remove(); } String noHtml = doc.text(); System.out.println(noHtml); } }</pre><div class="contentsignin">ログイン後にコピー</div></div><p> このサンプル コードでは、まず <code>Jsoup.parse()</code> メソッドを使用して、HTML テキストを Jsoup ドキュメントに変換します。物体。次に、<code>doc.select("*")</code> メソッドを使用してすべての要素を選択します。次に、<code>element.remove()</code> メソッドを使用して、すべての要素を削除します。最後に、<code>doc.text()</code> メソッドを使用して、HTML タグのないテキストを取得します。この方法により、HTMLタグを簡単に削除することができます。 </p> <p>3. 結論</p> <p>この記事では、HTML タグを削除する 2 つの方法 (正規表現を使用する方法と Jsoup ライブラリを使用する方法) を紹介します。どちらの方法も HTML テキストの処理に便利で、必要に応じていずれかを選択できます。読者がこの記事を通じて Java で HTML タグを削除する方法を理解し、実際に適用できることを願っています。 </p>

以上がJavaはHTMLを削除しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート