Maison
Java
javaDidacticiel
Méthode Java pour obtenir le code source de n'importe quelle page Web http



Méthode Java pour obtenir le code source de n'importe quelle page Web http
Sep 28, 2017 am 10:09 AM
http
java
网页
这篇文章主要介绍了Java获取任意http网页源代码的方法,可实现获取网页代码以及去除HTML标签的代码功能,涉及Java正则操作相关实现技巧,需要的朋友可以参考下
本文实例讲述了JAVA获取任意http网页源代码。分享给大家供大家参考,具体如下:
JAVA获取任意http网页源代码可实现如下功能:
1. 获取任意http网页的代码
2. 获取任意http网页去掉HTML标签的代码
Webpage类:
/** * 网页操作相关类 */ package test; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * @author winddack * */ public class Webpage { private String pageUrl;//定义需要操作的网页地址 private String pageEncode="UTF8";//定义需要操作的网页的编码 public String getPageUrl() { return pageUrl; } public void setPageUrl(String pageUrl) { this.pageUrl = pageUrl; } public String getPageEncode() { return pageEncode; } public void setPageEncode(String pageEncode) { this.pageEncode = pageEncode; } //定义取源码的方法 public String getPageSource() { StringBuffer sb = new StringBuffer(); try { //构建一URL对象 URL url = new URL(pageUrl); //使用openStream得到一输入流并由此构造一个BufferedReader对象 BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(), pageEncode)); String line; //读取www资源 while ((line = in.readLine()) != null) { sb.append(line); } in.close(); } catch (Exception ex) { System.err.println(ex); } return sb.toString(); } //定义一个把HTML标签删除过的源码的方法 public String getPageSourceWithoutHtml() { final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定义script的正则表达式 final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; // 定义style的正则表达式 final String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式 final String regEx_space = "\\s*|\t|\r|\n";//定义空格回车换行符 String htmlStr = getPageSource();//获取未处理过的源码 Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE); Matcher m_script = p_script.matcher(htmlStr); htmlStr = m_script.replaceAll(""); // 过滤script标签 Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE); Matcher m_style = p_style.matcher(htmlStr); htmlStr = m_style.replaceAll(""); // 过滤style标签 Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE); Matcher m_html = p_html.matcher(htmlStr); htmlStr = m_html.replaceAll(""); // 过滤html标签 Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE); Matcher m_space = p_space.matcher(htmlStr); htmlStr = m_space.replaceAll(""); // 过滤空格回车标签 htmlStr = htmlStr.trim(); // 返回文本字符串 htmlStr = htmlStr.replaceAll(" ", ""); htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1); return htmlStr; } }
Copier après la connexion
调用:
Webpage page=new Webpage(); page.setPageUrl("http://www.baidu.com"); String code=page.getPageSourceWithoutHtml(); System.out.println(code);
Copier après la connexion
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud
Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines
By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines
By DDD
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines
By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines
By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds Tags

Article chaud
Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines
By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines
By DDD
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines
By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines
By 尊渡假赌尊渡假赌尊渡假赌

Tags d'article chaud

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Générateur de nombres aléatoires en Java

Questions d'entretien chez Java Spring

Break or Return of Java 8 Stream Forach?
