Dengan perkembangan Internet, kita selalunya perlu mendapatkan data daripada halaman web atau merangkak data. Walau bagaimanapun, halaman web selalunya mengandungi sejumlah besar teg HTML dan simbol khas lain, yang sangat menyusahkan untuk pemprosesan data. Artikel ini akan memperkenalkan cara menggunakan Java untuk mengalih keluar teg HTML untuk menjadikan data lebih mudah untuk diproses.
1. Apakah itu teg HTML?
HTML (Hyper Text Markup Language) ialah bahasa standard untuk mencipta halaman web. Bahasa HTML mengandungi satu siri teg, yang menerangkan dan memaparkan teks, imej, video dan kandungan lain melalui gabungan teg dan atribut. Sebagai contoh, berikut ialah halaman HTML ringkas:
<!DOCTYPE HTML> <html> <head> <meta charset="utf-8" /> <title>Example</title> </head> <body> <h1>Welcome to my page</h1> <p>Here are some <a href="http://www.example.com">links</a> you might find interesting:</p> <ul> <li><a href="http://www.example.com/link1">Link 1</a></li> <li><a href="http://www.example.com/link2">Link 2</a></li> <li><a href="http://www.example.com/link3">Link 3</a></li> </ul> </body> </html>
Dalam kod HTML di atas,
2. Mengapakah kita perlu mengalih keluar tag HTML?
Dalam aplikasi praktikal, kami selalunya tidak mahu memproses teg yang terkandung dalam HTML, tetapi hanya kandungannya. Contohnya:
3. Cara membuang tag HTML dalam Java
Penggunaan ungkapan biasa untuk mengalih keluar tag HTML dalam Java adalah Kaedah yang agak biasa. Kami boleh menggunakan ungkapan biasa untuk memadankan dan mengalih keluar teg HTML, hanya meninggalkan kandungan teks yang terkandung di dalamnya. Contohnya:
public static String removeHtmlTags(String html) { // 定义正则表达式 String regEx_html="<[^>]+>"; // 编译正则表达式 Pattern pattern = Pattern.compile(regEx_html); // 匹配正则表达式 Matcher matcher = pattern.matcher(html); // 去除标签 String res = matcher.replaceAll(""); return res.trim(); }
Dalam kaedah ini, kami mula-mula mentakrifkan ungkapan biasa <[^>]+>
, yang bermaksud semua teg HTML perlu dipadankan. Kemudian gunakan kaedah Pattern.compile() untuk menyusun ungkapan biasa ke dalam objek Pattern, dan akhirnya gunakan kaedah Matcher.replaceAll() untuk melaksanakan operasi pemadanan dan penggantian untuk mengalih keluar semua teg HTML.
Jsoup ialah perpustakaan Java untuk penghuraian HTML, yang boleh membantu kami mengalih keluar teg HTML dengan mudah. Menggunakan perpustakaan ini, kita hanya perlu menghantar teks HTML sebagai parameter ke dalam kaedah Jsoup.parse() dan menggunakan kaedah text() untuk mengekstrak kandungan teks untuk mengalih keluar teg HTML. Contohnya:
public static String removeHtmlTags(String html) { // 解析HTML Document doc = Jsoup.parse(html); // 去除标签 String res = doc.text(); return res; }
Dalam kaedah ini, kami mula-mula menggunakan kaedah Jsoup.parse() untuk menghuraikan teks HTML ke dalam objek Dokumen, dan kemudian menggunakan kaedah text() untuk mengekstrak kandungan teks, dengan itu menukar teg HTML Alih keluar.
4. Nota
Ringkasnya, mengalih keluar teg HTML adalah salah satu operasi yang sering kita perlu lakukan. Artikel ini memperkenalkan dua kaedah untuk mengalih keluar tag HTML dalam Java Pembaca boleh memilih kaedah yang sepadan mengikut keperluan sebenar. Sama ada menggunakan ungkapan biasa atau Jsoup, kami boleh mengalih keluar tag HTML dengan mudah, menjadikan pemprosesan dan analisis data seterusnya lebih mudah.
Atas ialah kandungan terperinci java mengeluarkan html. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!