java - 解析HTML,获取其中想要的信息
巴扎黑
巴扎黑 2017-04-18 10:20:42
0
7
792

遇到一个比较棘手的需求:

  1. 开发语言Java;

  2. 程序定时读取HR邮箱中从前程无忧,智联发过来的简历(已实现,获到简历的HTML);

  3. 从简历HTML中解析获取想要的信息想(姓名,性别,电话,邮箱,工作经历,教育经历等等),保存到数据库中;

  4. 把数据库中的简历数据用HTML展示,可让HR进行筛选;

我现在卡在了简历HTML的解析信息这步,我用比较笨的方法,字符串定位截取,但是这样没办法比较准确的获取到想要信息。。。求助大家,看有没有好方法解析。。

巴扎黑
巴扎黑

répondre à tous(7)
PHPzhong

Il est préférable d'utiliser Jsoup pour le convertir en l'objet Document correspondant, ce qui est plus pratique lors de l'utilisation des éléments correspondants.
API jsoup : http://www.open-open.com/jsoup/

刘奇

Et si vous utilisiez des expressions régulières ? Réfléchissez davantage aux formats de correspondance possibles et cela devrait aller.

Ty80

Il serait préférable d'utiliser la capture régulière

巴扎黑

Vous pouvez utiliser jsoup

小葫芦

Vous pouvez utiliser JSOUP. J'ai déjà fait quelque chose de similaire. C'est très pratique et peut traiter diverses balises, etc.

Ty80

Préférez jsoup.
jsoup a une fonction de sélection, qui est similaire à la syntaxe du sélecteur CSS. L'API est simple et pratique que les expressions régulières.

伊谢尔伦

1 Regular
2 bibliothèque d'analyse HTML, qui semble s'appeler "mithril" en chinois

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal