<p>Java は、さまざまな種類のアプリケーションの開発に使用できる、広く使用されているプログラミング言語です。多くのアプリケーションではテキストを処理する必要があり、よくある問題の 1 つは HTML タグを削除する方法です。 HTML マークアップは、Web ページ内のテキストやその他のコンテンツをマークアップするために使用されるコード言語ですが、テキストを処理したり別の場所に適用する必要がある場合は、マークアップを削除する必要があります。この記事では、Java を使用して HTML タグを削除する方法について説明します。 </p>
<p>1. 正規表現を使用して HTML タグを削除する</p>
<p>Java では、正規表現を使用してテキストの一致と置換を行うことができます。したがって、正規表現を使用して HTML タグを削除できます。サンプル コードは次のとおりです。 </p><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:java;toolbar:false;'>import java.util.regex.Pattern;
import java.util.regex.Matcher;
public class HtmlTagRemover {
public static void main(String[] args) {
String html = "<p>这是一段包含HTML标记的文本</p>";
String noHtml = html.replaceAll("\<.*?\>", "");
System.out.println(noHtml);
}
}</pre><div class="contentsignin">ログイン後にコピー</div></div><p> このサンプル コードでは、<code>replaceAll()</code> メソッドを使用して、すべての HTML タグを空の文字列に置き換えます。正規表現 <code>\<.*?\></code> は、<code><</code> で始まり <code>></code> で終わるすべての文字列、つまり HTML マークと一致します。この式では、最短の文字列のみに一致する非貪欲モードが使用されます。したがって、すべての HTML タグが削除されることが保証されます。 </p><p>2. Jsoup ライブラリを使用して HTML タグを削除する</p><p>正規表現を使用するだけでなく、Jsoup ライブラリを使用して HTML タグを削除することもできます。 Jsoup は、HTML ドキュメントからデータを抽出し、DOM ドキュメントを作成し、HTML ドキュメントを操作するための便利な API を提供するオープン ソースの Java HTML パーサーです。以下は、Jsoup を使用して HTML タグを削除するサンプル コードです。 </p><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:java;toolbar:false;'>import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class HtmlTagRemover {
public static void main(String[] args) {
String html = "<p>这是一段包含HTML标记的文本</p>";
Document doc = Jsoup.parse(html);
Elements elements = doc.select("*");
for (Element element : elements) {
element.remove();
}
String noHtml = doc.text();
System.out.println(noHtml);
}
}</pre><div class="contentsignin">ログイン後にコピー</div></div><p> このサンプル コードでは、まず <code>Jsoup.parse()</code> メソッドを使用して、HTML テキストを Jsoup ドキュメントに変換します。物体。次に、<code>doc.select("*")</code> メソッドを使用してすべての要素を選択します。次に、<code>element.remove()</code> メソッドを使用して、すべての要素を削除します。最後に、<code>doc.text()</code> メソッドを使用して、HTML タグのないテキストを取得します。この方法により、HTMLタグを簡単に削除することができます。 </p>
<p>3. 結論</p>
<p>この記事では、HTML タグを削除する 2 つの方法 (正規表現を使用する方法と Jsoup ライブラリを使用する方法) を紹介します。どちらの方法も HTML テキストの処理に便利で、必要に応じていずれかを選択できます。読者がこの記事を通じて Java で HTML タグを削除する方法を理解し、実際に適用できることを願っています。 </p>
以上がJavaはHTMLを削除しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。